声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 低调奋进
欢迎关注个人公众号:低调奋进
写在文前:该方向不是我研究的方向,只是凭着兴趣阅读相关文章,对应的实验没有时间和资源做(不能占用公司的资源)。
目录
2.1 Listening while Speaking Speech Chain by Deep Learning
2.2 Machine Speech Chain with One-shot Speaker Adaptation
2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition
2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition
1 背景
世界存在6000多种语言,按照工业标准来制作高质量的TTS和ASR,每种语言获取训练语料(<speech,text>格式)的成本在10w美元以上[5],而且很多语言存在标注困难的问题,因此使用少数量的训练语料来训练TTS和ASR是迫切的需求。从研究发展阶段来看(早期单任务研究到成熟期的多任务融合研究),TTS和ASR联合训练是未来发展必然趋势。
2 研究情况
目前Dual Learning研究还处于初始阶段,根据最近文章的搜索,2018年日本nais发表两篇文章Machine Speech Chain with One-shot SpeakerAdaptation和Listening while SpeakingSpeech Chain by DeepLearning,接下来的文章主要出自微软,其中包括2019年的Almost Unsupervised Text to Speech and Automatic Speech Recognition和2020年的RSpeech-Extremely Low-Resource Speech Synthesis and Recognitio。
接下来我主要根据时间轴顺序来简单分享这四篇文章。
2.1 Listening while Speaking Speech Chain by Deep Learning
本文章主要阐述文章灵感来源主要人类的生理系统。对于人类而言(图一所示),人类的语音的产生和感知是互相促进的。比如,当你向别人说话的同时,不仅把话语传给对方,而且语音也被自己感知从而判断自己说的话是否正确,并纠正说话方式,这也是孩童时期学会说话的生理模式。但对于语言的研究,TTS和ASR却是相互独立的两个任务,因此作者提出了TTS和ASR相互学习的speech chain.