【韵律预测】基于BILSTM-CRF的韵律预测

最新推荐文章于 2024-08-14 09:56:15 发布

cxxx17

最新推荐文章于 2024-08-14 09:56:15 发布

阅读量1.9k

点赞数

分类专栏： TTS学习笔记 TTS论文阅读文章标签：人工智能算法

本文链接：https://blog.csdn.net/weixin_42262721/article/details/108522316

版权

TTS学习笔记同时被 2 个专栏收录

26 篇文章 8 订阅

订阅专栏

TTS论文阅读

26 篇文章 6 订阅

订阅专栏

基于BILSTM-CRF的韵律预测

摘要
BLSTM-CRF模型结构
Character-level表示
CRF++的一些资料

论文题目：BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in A Text-to-Speech Front-End
来源：interspeech2018
模型结构：word embedding+bilstm+CRF

摘要

本文提出了一个与语言无关的韵律预测模型（BILSTM-CRF）。主要包括三个组分：word embedding+bilstm+CRF，word embedding 是根据韵律预测的特殊任务学习的word embedding, BLSTM能够利用过去和未来的信息，CRF能够利用句子级别的信息。本文整合了三个部分，并且三个部分同时学习更新。除此之外，本文研究了character embedding和context sentensive embedding 对模型的作用，以及使用attention机制对embbedding加权的作用。通过注意力机制，模型能够决定如何使用不同level的embedding(word level和character level)。客观评价结果表明本文提出的BLSTM-CRF在普通话和英语的数据集上实现了最好的效果（与之前效果最好的BLSTM相比，IPH的预测F1得分分别有3.21%和3.74%的提升）主观评测结果也说明了本文提出的方法的有效性。

BLSTM-CRF模型结构

在这里插入图片描述
CRF层预测二分类：break or no break

Embedding layer

以前的许多工作中，直接将pre-trained的word embedding作为输入，即word embedding在模型训练过程中不会更新。本文中word embedding在模型训练的过程中会被fine-tuned，从而获得一些针对韵律边界预测任务的特性。

BLSTM-CRF model

BLSTM

双向LSTM，分别从两个相反的方向得到正向的输出 $\mathop{h} \limits ^{\rightarrow}$ 和反向的输出 $\mathop{h} \limits ^{\leftarrow}$ ，并把他们拼接到一起 $\textbf{h}=[\mathop{h} \limits ^{\rightarrow},\mathop{h} \limits ^{\leftarrow}]$ 送给下一层。

CRF

对于韵律边界预测任务来说，不同的tags之间是有依赖关系的，因此比较适合整句建模和解码。CRF的loss定义为正确的路径得分的负对数似然。
CRF loss
$s (y)$ 表示序列y的得分， $\widetilde{Y}$ 表示所有可能的序列。

Character-level表示

在之前的研究中，针对韵律预测任务，word embedding比character embedding特征能够帮助模型学到更好的效果，因此本文没有用character embedding直接替换掉word embedding，而是应用attention机制，让模型去利用不同粒度的embedding。具体结构如图：
在这里插入图片描述