语音合成（TTS)论文优选:A Mask-based Model for Mandarin Chinese Polyphone Disambiguation-CSDN博客

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110237831

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

很久没有读TTS的前端（front-end）的文章了，当然TTS的文章大部分还是后端，现在读这篇文章倍感有趣。该文章是北京标贝公司在2020.10.25，interspeech 上发表的文章，文章具体链接 https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1142.pdf

1 研究背景

TTS系统主要分为前端和后端，前端的任务就是规范文本并把字素转成音素（G2P,grapheme-to-phoneme)，生成需要的语言特征。后端则是把前端生成的语言特征经过声学模型转成声学特征，最后把声学特征输入到声码器获取语音波形。前端的处理中，多音字的处理十分困难，因为它需要根据上下文的语义才能确定多音字的相应读音。现在的多音字处理方案主要包括：基于规则的方案，基于统计的方案和基于神经网络的方案。（目前的话，我呆过的公司还是处于基于规则和基于统计的混合方案，主要原因还是简单快速和缺少大量的语料）。本篇文章提出了一种基于神经网络的方案，该方案主要解决了两个问题：1）中文的多音字很多，如果把所有的多音字公用一个模型，（当初基于CRF模型存在模型增大问题，所以就每个字或者词对应一个模型，造成的模型数量很多，给后期管理造成一定困扰），造成多音字预测到该字不存在的读音；2）多音字的读音之间存在不均衡的现象，造成少量读音的预测不精确。

2 详细结构

为解决以上问题，本文章提到两个创新点：weighted softmax 和 modified focal loss。在详细介绍文章的具体设计，先介绍一下本章使用的输入features。如图1所示，本文使用的feature 主要包括CC ( chinese character), CWC(chinese word segmentation), POS(part of speech),PP(polyphone), Flag(Flag token)和Mask(mask vector)。（我感觉比较有意思的是mask vector的设计，该vector可以做很多事情，很好的把多音字共用一个模型，当然这需要添加一个多音字的音节表，维度就是音节的个数）

语音合成（TTS)论文优选：Polyphone

本系统主要分为三个部分（图2所示）：character-level feature embedding layer, context features encoding layer和restricted output layer。有意思的是context layer使用blstm和1D-cnn混合，反正好的东西都拿来用。

语音合成（TTS)论文优选：Polyphone

最后说下文章的重点，weight-softmax和modified focal loss。

weight-softmax主要添加了上边的mask vector,可以解决多音词误预测到集外的音，具体公式如下：

语音合成（TTS)论文优选：Polyphone

Modified focal loss主要在focal loss基础上添加置信参数，该参数主要平衡多音字的音节之间的影响权重，具体公式如下：

focal loss

语音合成（TTS)论文优选：Polyphone

Modified focal loss

语音合成（TTS)论文优选：Polyphone

3 实验结果

本篇文章的主要实验是预测多音字的准确率，对比系统的各种模块的影响程度。由结果可知，该系统可以提高多音字的准确率并且平衡每个音节的影响，从而提高少量音节的准确率。

语音合成（TTS)论文优选：Polyphone

4 总结

本文章使用mask vector把多音字在一个模型进行训练，而且使用MFL解决音节之间的不平衡，效果也不错。但我认为，使用该模型进行多音字处理，时间开销和内存开销都将增大，这将决定是否能在实时要求很高的服务和嵌入式服务商落地使用。（当然我们也无法获取这么多多音字的训练语料，最后羡慕标贝，自己是数据提供商，可以不需要考虑数据的问题）