声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
DEVICETTS: A SMALL-FOOTPRINT, FAST, STABLE NETWORK FOR ON-DEVICE TEXT-TO-SPEECH
该文章是阿里巴巴语音实验室在2020.10.29更新的文章,主要做嵌入式设备环境的TTS,更加符合移动时代的边缘计算。文章的具体链接
https://arxiv.org/pdf/2010.15311.pdf
1 研究背景
现有的TTS合成的语音质量已经相当高,几乎可以与录制的语音不分上下,但现有的研究都是在服务端的模型,研究移动设备上的TTS还是很少。另外研究移动设备上的TTS的好处不言而喻,可以大大降低了企业的服务成本。(我在以前监控过TTS服务的成本预算,如果把服务端的TTS成本分为三部分:计算成本,存储成本和流量。很多人可能都认为TTS成本主要是租用服务器的计算成本,但经过量化分析可知,流量成本在这里占比最多,几乎是计算成本的2倍还多。我们可以通过优化模型,优化性能或者使用缓存等技术来降低计算成本,但流量成本是无法改变的,访问越多,成本越大,因此想降低成本必须把TTS做到离线的移动设备端)本文针对移动环境设计了DeviceTTS,可以在移动设备上进行推理,并且其MOS值跟tacotron和fastspeech媲美(对于该结果,我持有自己观点,我以前跑tacotron2在移动设备上的结果,实时率不用担心,但MOS值和线上相比平均低0.2,本文可以做到相当,那就厉害了)
2 详细的系统设计
本文设计的系统如图1,主要包括四部分:encoder ,duration predictor, LR和decoder。encoder部分主要把输入进行编码,输出统一的中间表达形式,该部分使用的模块是DFSMN模块,该模块主要是前向神经网络构成。该模块还主要应用在duration 和decoder部分。duartion主要预测每个音素对应的帧数。LR则是根据预测的帧数进行语言特征扩展。decoder部分包括两部分,一个是输出多帧的AR自回归模型,另外是输出一帧的refine network,整体来说还算简单。
3 实验
本文实验的使用了world 和lpcnet声码器,其中对于声学模型每个step的输出帧数,world 是8 lpcent是3(感觉很怪,r为8我试验时候效果不算好),由table 2 和table 3的MOS和复杂度可知,本文提出的DeviceTTS参数量最少,但MOS几乎出不多(对这个结果我感觉有些问题,第一,lpcnet的音质跟world一样?离线的MOS也跟线上模型效果一样????)。
4 总结
研究移动端的DeviceTTS从商业角度是非常值得研究的,把成本嫁接给用户,本文实验效果非常突出,非常突出。(我以前调离线模型,效果怎样还是有一定的概念)