语音合成(TTS)论文优选:A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

很久没有读TTS的前端(front-end)的文章了,当然TTS的文章大部分还是后端,现在读这篇文章倍感有趣。该文章是北京标贝公司在2020.10.25,interspeech 上发表的文章,文章具体链接 https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1142.pdf

1 研究背景

TTS系统主要分为前端和后端,前端的任务就是规范文本并把字素转成音素(G2P,grapheme-to-phoneme),生成需要的语言特征。后端则是把前端生成的语言特征经过声学模型转成声学特征,最后把声学特征输入到声码器获取语音波形。前端的处理中,多音字的处理十分困难,因为它需要根据上下文的语义才能确定多音字的相应读音。现在的多音字处理方案主要包括:基于规则的方案,基于统计的方案和基于神经网络的方案。(目前的话,我呆过的公司还是处于基于规则和基于统计的混合方案,主要原因还是简单快速和缺少大量的语料)。本篇文章提出了一种基于神经网络的方案,该方案主要解决了两个问题:1)中文的多音字很多,如果把所有的多音字公用一个模型,(当初基于CRF模型存在模型增大问题,所以就每个字或者词对应一个模型,造成的模型数量很多,给后期管理造成一定困扰),造成多音字预测到该字不存在的读音;2)多音字的读音之间存在不均衡的现象,造成少量读音的预测不精确。

2 详细结构

为解决以上问题,本文章提到两个创新点:weighted softmax 和 modified focal loss。在详细介绍文章的具体设计,先介绍一下本章使用的输入features。如图1所示,本文使用的feature 主要包括CC ( chinese character), CWC(chinese word segmentation), POS(part of speech),PP(polyphone), Flag(Flag token)和Mask(mask vector)。(我感觉比较有意思的是mask vector的设计,该vector可以做很多事情,很好的把多音字共用一个模型,当然这需要添加一个多音字的音节表,维度就是音节的个数)

语音合成(TTS)论文优选:Polyphone


本系统主要分为三个部分(图2所示):character-level feature embedding layer, context features encoding layer和restricted output layer。有意思的是context layer使用blstm和1D-cnn混合,反正好的东西都拿来用。

语音合成(TTS)论文优选:Polyphone

最后说下文章的重点,weight-softmax和modified focal loss。

weight-softmax主要添加了上边的mask vector,可以解决多音词误预测到集外的音,具体公式如下:

语音合成(TTS)论文优选:Polyphone

Modified focal loss主要在focal loss基础上添加置信参数,该参数主要平衡多音字的音节之间的影响权重,具体公式如下:

focal loss

语音合成(TTS)论文优选:Polyphone

Modified focal loss

语音合成(TTS)论文优选:Polyphone

3 实验结果

本篇文章的主要实验是预测多音字的准确率,对比系统的各种模块的影响程度。由结果可知,该系统可以提高多音字的准确率并且平衡每个音节的影响,从而提高少量音节的准确率。

语音合成(TTS)论文优选:Polyphone

语音合成(TTS)论文优选:Polyphone

4 总结

本文章使用mask vector把多音字在一个模型进行训练,而且使用MFL解决音节之间的不平衡,效果也不错。但我认为,使用该模型进行多音字处理,时间开销和内存开销都将增大,这将决定是否能在实时要求很高的服务和嵌入式服务商落地使用。(当然我们也无法获取这么多多音字的训练语料,最后羡慕标贝,自己是数据提供商,可以不需要考虑数据的问题)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值