语音合成（speech synthesis）方向一：双重学习Dual Learning

最新推荐文章于 2023-11-24 20:05:46 发布

我叫永强

最新推荐文章于 2023-11-24 20:05:46 发布

阅读量1.4k

点赞数 1

分类专栏：语音合成综述文章标签：语音识别人工智能深度学习 tts 机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110237355

版权

声明：工作以来主要从事TTS工作，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据低调奋进

欢迎关注个人公众号：低调奋进

写在文前：该方向不是我研究的方向，只是凭着兴趣阅读相关文章，对应的实验没有时间和资源做（不能占用公司的资源）。

1 背景

2 研究情况

2.1 Listening while Speaking Speech Chain by Deep Learning

2.2 Machine Speech Chain with One-shot Speaker Adaptation

2.3 Almost Unsupervised Text to Speech and Automatic Speech Recognition

2.4 RSpeech- Extremely Low-Resource Speech Synthesis and Recognition

3 总结

4 引用

1 背景

世界存在6000多种语言，按照工业标准来制作高质量的TTS和ASR,每种语言获取训练语料（<speech,text>格式)的成本在10w美元以上[5]，而且很多语言存在标注困难的问题，因此使用少数量的训练语料来训练TTS和ASR是迫切的需求。从研究发展阶段来看（早期单任务研究到成熟期的多任务融合研究），TTS和ASR联合训练是未来发展必然趋势。

2 研究情况

目前Dual Learning研究还处于初始阶段，根据最近文章的搜索，2018年日本nais发表两篇文章Machine Speech Chain with One-shot SpeakerAdaptation和Listening while SpeakingSpeech Chain by DeepLearning，接下来的文章主要出自微软，其中包括2019年的Almost Unsupervised Text to Speech and Automatic Speech Recognition和2020年的RSpeech-Extremely Low-Resource Speech Synthesis and Recognitio。

接下来我主要根据时间轴顺序来简单分享这四篇文章。

2.1 Listening while Speaking Speech Chain by Deep Learning

本文章主要阐述文章灵感来源主要人类的生理系统。对于人类而言（图一所示），人类的语音的产生和感知是互相促进的。比如，当你向别人说话的同时，不仅把话语传给对方，而且语音也被自己感知从而判断自己说的话是否正确，并纠正说话方式，这也是孩童时期学会说话的生理模式。但对于语言的研究，TTS和ASR却是相互独立的两个任务，因此作者提出了TTS和ASR相互学习的speech chain.

最低0.47元/天解锁文章

我叫永强

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
3
评论
语音合成（speech synthesis）方向一：双重学习Dual Learning

声明：工作以来主要从事TTS工作，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html写在文前：该方向不是我研究的方向，只是凭着兴趣阅读相关文章，对应的实验没有时间和资源做（不能占用公司的资源）。1 背景世界存在6000多种语言，按照工业标准来制作高质量的TTS和ASR,每种语言获取训
复制链接

扫一扫