声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes
本文章是美国加州大学戴维斯分校语言学系语音实验室在interspeech 2020发表的文章,文章主要对比语音合成的拼接方案和基于神经网络方案的效果,具体的文章链接
https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1336.pdf
(本文章主要是实验对比,作为经验分享,阅读起来较为轻松,也算偷一次懒。我坚持每天至少读一篇文章,刚开始信心满满,时间久了就会产生疲惫,尤其读一些比较难懂的文章。阅读文章的时间大部分都是在下班后和早晨早到公司一个小时,但收获也挺多的,还会一直坚持下去,往后打算往其它语音方向扩展,不仅仅在语音合成的方向)
1 研究背景
现在语音智能交互的设备越来普遍,比如google home, amazon echo等等。这些设备的应用场景并不是理想的安静状态,因此本文章主要探索在不同环境下,语音合成的拼接方案和基于神经网络方案的效果对比。
2 效果
具体的测试设备和参数设置之类的就不阐述了。本文主要做了两个实验,第一个实验是在不同噪声下不同类型文本的可懂度测试。其中噪声设置为-3db 和 -6db。文本有两种,一种存在语义相关,可以预测通过上下文来predictability出相应的词,另一种为不容易根据语义预测,文本内容是随机的。测试结果如图1所示,在单词正确度方面,无论是噪声大小,文本内容是否存在强的语义关联,拼接方案要好于基于神经网络的方案。第二个实验室测试合成语音的属性:human-like,familiar, likeable and natural。由结果图2可知,神经网络的方案都远远好于拼接的方案。
3 总结
本文主要对语音合成的方案进行对比:拼接方案和基于神经网络的方案。虽然在单词准确度上拼接方案较好,但自然性和相似性上基于神经网络的方案更优。在小说阅读,导读讲解,对话系统等场景,基于神经网络的方案更具有市场。