语音合成(TTS)论文优选:devicetts :A SMALL-FOOTPRINT, FAST, STABLE NETWORK FOR ON-DEVICE TEXT-TO-SPE

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

DEVICETTS: A SMALL-FOOTPRINT, FAST, STABLE NETWORK FOR ON-DEVICE TEXT-TO-SPEECH

该文章是阿里巴巴语音实验室在2020.10.29更新的文章,主要做嵌入式设备环境的TTS,更加符合移动时代的边缘计算。文章的具体链接

https://arxiv.org/pdf/2010.15311.pdf

1 研究背景

现有的TTS合成的语音质量已经相当高,几乎可以与录制的语音不分上下,但现有的研究都是在服务端的模型,研究移动设备上的TTS还是很少。另外研究移动设备上的TTS的好处不言而喻,可以大大降低了企业的服务成本。(我在以前监控过TTS服务的成本预算,如果把服务端的TTS成本分为三部分:计算成本,存储成本和流量。很多人可能都认为TTS成本主要是租用服务器的计算成本,但经过量化分析可知,流量成本在这里占比最多,几乎是计算成本的2倍还多。我们可以通过优化模型,优化性能或者使用缓存等技术来降低计算成本,但流量成本是无法改变的,访问越多,成本越大,因此想降低成本必须把TTS做到离线的移动设备端)本文针对移动环境设计了DeviceTTS,可以在移动设备上进行推理,并且其MOS值跟tacotron和fastspeech媲美(对于该结果,我持有自己观点,我以前跑tacotron2在移动设备上的结果,实时率不用担心,但MOS值和线上相比平均低0.2,本文可以做到相当,那就厉害了)

2 详细的系统设计

本文设计的系统如图1,主要包括四部分:encoder ,duration predictor, LR和decoder。encoder部分主要把输入进行编码,输出统一的中间表达形式,该部分使用的模块是DFSMN模块,该模块主要是前向神经网络构成。该模块还主要应用在duration 和decoder部分。duartion主要预测每个音素对应的帧数。LR则是根据预测的帧数进行语言特征扩展。decoder部分包括两部分,一个是输出多帧的AR自回归模型,另外是输出一帧的refine network,整体来说还算简单。

语音合成(TTS)论文优选:DeviceTTS

3 实验

本文实验的使用了world 和lpcnet声码器,其中对于声学模型每个step的输出帧数,world 是8 lpcent是3(感觉很怪,r为8我试验时候效果不算好),由table 2 和table 3的MOS和复杂度可知,本文提出的DeviceTTS参数量最少,但MOS几乎出不多(对这个结果我感觉有些问题,第一,lpcnet的音质跟world一样?离线的MOS也跟线上模型效果一样????)。

语音合成(TTS)论文优选:DeviceTTS

4 总结

研究移动端的DeviceTTS从商业角度是非常值得研究的,把成本嫁接给用户,本文实验效果非常突出,非常突出。(我以前调离线模型,效果怎样还是有一定的概念)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值