语音合成(TTS)论文优选:视觉文本语音合成vTTS: visual-text to speech

vTTS是一种利用视觉文本(文本图像)进行语音合成的方法,它能生成自然度高的语音,并在不增加额外模块的情况下实现重读和情感控制。相较于传统TTS,vTTS对稀有字符和集外字符有更强的鲁棒性,且在日语、韩语和英语上的实验结果显示,其合成效果可媲美甚至优于传统TTS。
摘要由CSDN通过智能技术生成

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

​vTTS: visual-text to speech

本文是东京大学在2022.03.28更新的文章。区别于tts使用纯文本语言信息作为输入,该文章使用视觉文本(文本当成图片)作为输入,使其合成语音更加自然,而且在不添加任何模块情况下可以实现重读、情感等控制。具体的文章链接

https://arxiv.org/pdf/2203.14725.pdf


(我介绍该文章主要感觉本文想法奇特有趣)

1 研究背景

传统的 TTS 将音素或字符等语言信息转换为声学特征,并从中合成语音波形。但该种方式失去了字符本质上具有的视觉特征,因此本文提出了视觉文本语音合成系统(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。实验结果表明, vTTS 能够生成自然度与传统 TTS 相当或更好的语音,而且它无需额外的标签和架构就可以将视觉文本中的重读和情感属性迁移到语音中。另外, 与传统 TTS 相比,该系统对稀有字符及集外字符的鲁棒性更强。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值