【Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 论文阅读】

最新推荐文章于 2025-01-15 23:12:18 发布

hcqwertyuiop123

最新推荐文章于 2025-01-15 23:12:18 发布

阅读量3.3k

点赞数

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hcqwertyuiop123/article/details/122358862

版权

端到端TTS 变分自编码器对抗学习随机时长预测语音合成

关键词由CSDN通过智能技术生成

《Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech》

ICML 2021 Jaehyeon Kim, Jungil Kong, Juhee Son

摘要
一些基于单阶段训练和并行解码的端到端语音合成模型取得了不错的效果，但是它们的语音质量与两阶段训练的语音合成模型相比还有一定差距。本文提出了一个完全并行化的语音合成模型，与两阶段模型相比可以生成更加自然的合成语音。模型采用基于标准化流模型 (normalizing ﬂows) 的变分推理 (variational inference) 策略和对抗学习策略来提升生成模型的表现力。我们还提出随机时长预测模块来提升合成语音的韵律多样性。凭借变分推理隐变量和随机时长预测模块的不确定性建模，我们的模型可以很好的处理语音合成中的一对多问题，从而可以为给定文本生成具有多种多样基频和韵律表现的合成语音。在LJSpeech数据上的主观MOS实验结果表明，我们的模型优于目前所有的公开TTS模型，并且MOS分数与Ground Truth相当。
引言
不考虑前端文本处理的情况下，语音合成 (text-to-Speech, TTS) 的主要建模过程被简化为两个主要阶段。第一阶段：将前端文本处理得到的规范文本序列转换为中间特征表示，如mel-spectrograms声学特征或语言学特征表示。第二阶段：将中间特征表示重构为语音波形。

自回归语音合成模型可以合成高质量的语音，但是自回归的序列生成方式限制了模型的并行处理能力。因此

最低0.47元/天解锁文章

hcqwertyuiop123

博客等级

码龄12年

4
原创

10
点赞

38
收藏

9
粉丝

关注

私信

热门文章

最新评论

【无标题】
CSDN-Ada助手: 恭喜您持续创作，并发布了第四篇博客！尽管这篇博客的标题是"【无标题】"，但内容可能会给读者带来惊喜。您的创作热情令人钦佩，不断尝试新领域是不断进步的关键。我希望在下一篇博客中，您能够为读者提供一个引人入胜的标题，这样更容易吸引更多的读者。继续保持努力，我期待您未来的创作成果！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
svnlook diff 无法对比事务与指定版本的差异
CSDN-Ada助手: 恭喜你写了第三篇博客！标题看起来很有趣。我很高兴看到你持续创作并分享知识。关于你的博客内容，我认为你可以进一步扩展。或许你可以提供一些关于如何解决这个问题的具体步骤或者分享一些相关的实际案例。这样读者可以更好地理解和应用你的建议。总之，我非常期待你未来的创作！请继续努力，分享更多有用的知识和经验。谢谢你的付出！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。