语音合成（TTS)论文优选：Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligib

最新推荐文章于 2022-05-23 22:34:19 发布

我叫永强

最新推荐文章于 2022-05-23 22:34:19 发布

阅读量216

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/111058682

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes

本文章是美国加州大学戴维斯分校语言学系语音实验室在interspeech 2020发表的文章，文章主要对比语音合成的拼接方案和基于神经网络方案的效果，具体的文章链接

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1336.pdf

（本文章主要是实验对比，作为经验分享，阅读起来较为轻松，也算偷一次懒。我坚持每天至少读一篇文章，刚开始信心满满，时间久了就会产生疲惫，尤其读一些比较难懂的文章。阅读文章的时间大部分都是在下班后和早晨早到公司一个小时，但收获也挺多的，还会一直坚持下去，往后打算往其它语音方向扩展，不仅仅在语音合成的方向）

1 研究背景

现在语音智能交互的设备越来普遍，比如google home, amazon echo等等。这些设备的应用场景并不是理想的安静状态，因此本文章主要探索在不同环境下，语音合成的拼接方案和基于神经网络方案的效果对比。

2 效果

具体的测试设备和参数设置之类的就不阐述了。本文主要做了两个实验，第一个实验是在不同噪声下不同类型文本的可懂度测试。其中噪声设置为-3db 和 -6db。文本有两种，一种存在语义相关，可以预测通过上下文来predictability出相应的词，另一种为不容易根据语义预测，文本内容是随机的。测试结果如图1所示，在单词正确度方面，无论是噪声大小，文本内容是否存在强的语义关联，拼接方案要好于基于神经网络的方案。第二个实验室测试合成语音的属性：human-like，familiar, likeable and natural。由结果图2可知，神经网络的方案都远远好于拼接的方案。

3 总结

本文主要对语音合成的方案进行对比：拼接方案和基于神经网络的方案。虽然在单词准确度上拼接方案较好，但自然性和相似性上基于神经网络的方案更优。在小说阅读，导读讲解，对话系统等场景，基于神经网络的方案更具有市场。

我叫永强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成（TTS)论文优选：Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligib

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes本文章是美国加州大学戴维斯分校语言学系语音实验室在interspeech 2020发表
复制链接

扫一扫