【韵律预测】基于BILSTM-CRF的韵律预测


论文题目:BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in A Text-to-Speech Front-End
来源:interspeech2018
模型结构:word embedding+bilstm+CRF

摘要

本文提出了一个与语言无关的韵律预测模型(BILSTM-CRF)。主要包括三个组分:word embedding+bilstm+CRF,word embedding 是根据韵律预测的特殊任务学习的word embedding, BLSTM能够利用过去和未来的信息,CRF能够利用句子级别的信息。本文整合了三个部分,并且三个部分同时学习更新。除此之外,本文研究了character embedding和context sentensive embedding 对模型的作用,以及使用attention机制对embbedding加权的作用。通过注意力机制,模型能够决定如何使用不同level的embedding(word level和character level)。客观评价结果表明本文提出的BLSTM-CRF在普通话和英语的数据集上实现了最好的效果(与之前效果最好的BLSTM相比,IPH的预测F1得分分别有3.21%和3.74%的提升)主观评测结果也说明了本文提出的方法的有效性。

BLSTM-CRF模型结构

在这里插入图片描述
CRF层预测二分类:break or no break

Embedding layer

以前的许多工作中,直接将pre-trained的word embedding作为输入,即word embedding在模型训练过程中不会更新。本文中word embedding在模型训练的过程中会被fine-tuned,从而获得一些针对韵律边界预测任务的特性。

BLSTM-CRF model

BLSTM

双向LSTM,分别从两个相反的方向得到正向的输出 h → \mathop{h} \limits ^{\rightarrow} h和反向的输出 h ← \mathop{h} \limits ^{\leftarrow} h,并把他们拼接到一起 h = [ h → , h ← ] \textbf{h}=[\mathop{h} \limits ^{\rightarrow},\mathop{h} \limits ^{\leftarrow}] h=[h,h]送给下一层。

CRF

对于韵律边界预测任务来说,不同的tags之间是有依赖关系的,因此比较适合整句建模和解码。CRF的loss定义为正确的路径得分的负对数似然。
CRF loss
s ( y ) s(y) s(y)表示序列y的得分, Y ~ \widetilde{Y} Y 表示所有可能的序列。

Character-level表示

在之前的研究中,针对韵律预测任务,word embedding比character embedding特征能够帮助模型学到更好的效果,因此本文没有用character embedding直接替换掉word embedding,而是应用attention机制,让模型去利用不同粒度的embedding。具体结构如图:
在这里插入图片描述

CRF++的一些资料

CRF++中模板的理解:crf++模板
使用CRF++实现命名体识别:NER
CRF++使用:CRF++使用

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值