语音合成(TTS)论文优选:Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligib

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Perception of concatenative vs. neural text-to-speech (TTS): Differences in intelligibility in noise and language attitudes

本文章是美国加州大学戴维斯分校语言学系语音实验室在interspeech 2020发表的文章,文章主要对比语音合成的拼接方案和基于神经网络方案的效果,具体的文章链接

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1336.pdf

(本文章主要是实验对比,作为经验分享,阅读起来较为轻松,也算偷一次懒。我坚持每天至少读一篇文章,刚开始信心满满,时间久了就会产生疲惫,尤其读一些比较难懂的文章。阅读文章的时间大部分都是在下班后和早晨早到公司一个小时,但收获也挺多的,还会一直坚持下去,往后打算往其它语音方向扩展,不仅仅在语音合成的方向)

1 研究背景

现在语音智能交互的设备越来普遍,比如google home, amazon echo等等。这些设备的应用场景并不是理想的安静状态,因此本文章主要探索在不同环境下,语音合成的拼接方案和基于神经网络方案的效果对比。

2 效果

具体的测试设备和参数设置之类的就不阐述了。本文主要做了两个实验,第一个实验是在不同噪声下不同类型文本的可懂度测试。其中噪声设置为-3db 和 -6db。文本有两种,一种存在语义相关,可以预测通过上下文来predictability出相应的词,另一种为不容易根据语义预测,文本内容是随机的。测试结果如图1所示,在单词正确度方面,无论是噪声大小,文本内容是否存在强的语义关联,拼接方案要好于基于神经网络的方案。第二个实验室测试合成语音的属性:human-like,familiar, likeable and natural。由结果图2可知,神经网络的方案都远远好于拼接的方案。

3 总结

本文主要对语音合成的方案进行对比:拼接方案和基于神经网络的方案。虽然在单词准确度上拼接方案较好,但自然性和相似性上基于神经网络的方案更优。在小说阅读,导读讲解,对话系统等场景,基于神经网络的方案更具有市场。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值