2021年语音合成年度总结

最新推荐文章于 2024-05-21 09:40:52 发布

我叫永强

最新推荐文章于 2024-05-21 09:40:52 发布

阅读量1.4k

点赞数 1

分类专栏：语音合成综述文章标签：语音识别人工智能 tts 机器学习深度学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/122330559

版权

语音合成综述专栏收录该内容

44 篇文章 46 订阅

订阅专栏

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。读者有什么建议可以直接给我发消息，我将不断修改该统计。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

（所有观点仅我一家之言）

2021年语音合成的论文总数有352篇（难免存在遗漏），几乎每天一篇文章。对于工作后的我们想全部阅读这么多的文章几乎是不可能的任务，因此我们只能通过摘要、系统架构和实验来筛选文章后再详细阅读。另外，我也在想这么多的文章产出需要投入多少的人力物力，但真正可落地的想法又有多少？多少年下来，上千篇文章可产业落地的也就那么具有代表性的几篇。我们通过文章发表情况可以很明显的感觉神经网络语音合成已经成熟期，最好的证明就是有多篇高质量的综述产生（具体参见语音合成论文优选：语音合成综述（2021）https://mp.weixin.qq.com/s/m6juWxML0E_e83fvs4k0Aw)，这也就意味着发表高质量文章越来越难，因此很多文章开始依赖更多的数学理论分析。2021年，我写了114篇公众号文章，语音合成方向的文章包括62篇语音合成论文阅读、6篇语音合成方向的总结以及12篇语音合成论文每月总结。本篇文章对2021年语音合成文章进行总结。

首先，我们根据以下柱状图可以清楚看到每月的文章发表情况，在6月和10月有两次爆发期，其大概与高校开学和假期相关。

接下来，我们看一下每个方向的发展趋势。表一给出具体分类说明。表二是每个方向的文章发表具体情况和总篇数。根据表二和饼状图可知，声学模型设计优化、声音转换、声码器、歌唱合成和情感合成占了主要部分。由于声学模型的学习能力越来越好，前端工作的研究也就相对的薄弱，整个年度也就5篇文章。很多小企业感觉对前端的投入人力和效率提升比不是太大，因此仅仅处于维护状态。声学模型的设计优化本年没有爆发出特别亮眼的框架，大部分使用的还是前几年的tacotron系列和fastspeech系列，唯一有希望成为流行框架的就是端到端的VITS，有的企业已经尝试服务落地。声码器的效果愈加仿真，而且也可以看到基于GAN的声码器成为主流，例如很多企业在服务端和移动端都做HiFi-GAN系列的优化。当声学模型和声码器的研究进入成熟，情感风格控制合成系统、歌唱合成系统、多模态系统等方向的研究逐渐多了起来。一方面是市场的需求增大，现在的元宇宙、虚拟人等娱乐性的市场需求增大。另一方面获取训练数据更容易一些，甚至有一些开源的数据。最后，声音转换方向文章一直很多，端到端（wav2wav)的方案成为该方向的热点。

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言	多语言模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态	talking head等等
声音转换	基于GAN方案和特征解耦方案
S2S	speech-to-speech
其它	基于EEG合成，数据，MOS评测以及语音合成的应用