语音合成(TTS)论文优选：视觉文本语音合成vTTS: visual-text to speech

最新推荐文章于 2024-06-12 21:23:47 发布

我叫永强

最新推荐文章于 2024-06-12 21:23:47 发布

阅读量3.9k

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习音频机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/123826068

版权

vTTS是一种利用视觉文本（文本图像）进行语音合成的方法，它能生成自然度高的语音，并在不增加额外模块的情况下实现重读和情感控制。相较于传统TTS，vTTS对稀有字符和集外字符有更强的鲁棒性，且在日语、韩语和英语上的实验结果显示，其合成效果可媲美甚至优于传统TTS。

摘要由CSDN通过智能技术生成

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

vTTS: visual-text to speech

本文是东京大学在2022.03.28更新的文章。区别于tts使用纯文本语言信息作为输入，该文章使用视觉文本（文本当成图片）作为输入，使其合成语音更加自然，而且在不添加任何模块情况下可以实现重读、情感等控制。具体的文章链接

https://arxiv.org/pdf/2203.14725.pdf

（我介绍该文章主要感觉本文想法奇特有趣）

1 研究背景

传统的 TTS 将音素或字符等语言信息转换为声学特征，并从中合成语音波形。但该种方式失去了字符本质上具有的视觉特征，因此本文提出了视觉文本语音合成系统（vTTS），这是一种从视觉文本（即，文本作为图像）合成语音的方法。实验结果表明， vTTS 能够生成自然度与传统 TTS 相当或更好的语音，而且它无需额外的标签和架构就可以将视觉文本中的重读和情感属性迁移到语音中。另外，与传统 TTS 相比，该系统对稀有字符及集外字符的鲁棒性更强。</

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。