声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
vTTS: visual-text to speech
本文是东京大学在2022.03.28更新的文章。区别于tts使用纯文本语言信息作为输入,该文章使用视觉文本(文本当成图片)作为输入,使其合成语音更加自然,而且在不添加任何模块情况下可以实现重读、情感等控制。具体的文章链接
https://arxiv.org/pdf/2203.14725.pdf
(我介绍该文章主要感觉本文想法奇特有趣)
1 研究背景
传统的 TTS 将音素或字符等语言信息转换为声学特征,并从中合成语音波形。但该种方式失去了字符本质上具有的视觉特征,因此本文提出了视觉文本语音合成系统(vTTS),这是一种从视觉文本(即,文本作为图像)合成语音的方法。实验结果表明, vTTS 能够生成自然度与传统 TTS 相当或更好的语音,而且它无需额外的标签和架构就可以将视觉文本中的重读和情感属性迁移到语音中。另外, 与传统 TTS 相比,该系统对稀有字符及集外字符的鲁棒性更强。</