语音合成（TTS)论文优选：devicetts :A SMALL-FOOTPRINT, FAST, STABLE NETWORK FOR ON-DEVICE TEXT-TO-SPE

最新推荐文章于 2024-06-09 09:45:23 发布

我叫永强

最新推荐文章于 2024-06-09 09:45:23 发布

阅读量535

点赞数 2

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238268

版权

语音合成论文专栏收录该内容

104 篇文章

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

DEVICETTS: A SMALL-FOOTPRINT, FAST, STABLE NETWORK FOR ON-DEVICE TEXT-TO-SPEECH

该文章是阿里巴巴语音实验室在2020.10.29更新的文章，主要做嵌入式设备环境的TTS,更加符合移动时代的边缘计算。文章的具体链接

https://arxiv.org/pdf/2010.15311.pdf

1 研究背景

现有的TTS合成的语音质量已经相当高，几乎可以与录制的语音不分上下，但现有的研究都是在服务端的模型，研究移动设备上的TTS还是很少。另外研究移动设备上的TTS的好处不言而喻，可以大大降低了企业的服务成本。（我在以前监控过TTS服务的成本预算，如果把服务端的TTS成本分为三部分：计算成本，存储成本和流量。很多人可能都认为TTS成本主要是租用服务器的计算成本，但经过量化分析可知，流量成本在这里占比最多，几乎是计算成本的2倍还多。我们可以通过优化模型，优化性能或者使用缓存等技术来降低计算成本，但流量成本是无法改变的，访问越多，成本越大，因此想降低成本必须把TTS做到离线的移动设备端）本文针对移动环境设计了DeviceTTS，可以在移动设备上进行推理，并且其MOS值跟tacotron和fastspeech媲美（对于该结果，我持有自己观点，我以前跑tacotron2在移动设备上的结果，实时率不用担心，但MOS值和线上相比平均低0.2,本文可以做到相当，那就厉害了）

2 详细的系统设计

本文设计的系统如图1，主要包括四部分：encoder ,duration predictor, LR和decoder。encoder部分主要把输入进行编码，输出统一的中间表达形式，该部分使用的模块是DFSMN模块，该模块主要是前向神经网络构成。该模块还主要应用在duration 和decoder部分。duartion主要预测每个音素对应的帧数。LR则是根据预测的帧数进行语言特征扩展。decoder部分包括两部分，一个是输出多帧的AR自回归模型，另外是输出一帧的refine network，整体来说还算简单。

语音合成（TTS)论文优选：DeviceTTS

3 实验

本文实验的使用了world 和lpcnet声码器，其中对于声学模型每个step的输出帧数，world 是8 lpcent是3（感觉很怪，r为8我试验时候效果不算好），由table 2 和table 3的MOS和复杂度可知，本文提出的DeviceTTS参数量最少，但MOS几乎出不多（对这个结果我感觉有些问题，第一，lpcnet的音质跟world一样？离线的MOS也跟线上模型效果一样？？？？）。

语音合成（TTS)论文优选：DeviceTTS