interspeech 2022 语音合成和语音识别简报

我叫永强

已于 2022-11-02 20:14:29 修改

阅读量944

点赞数

分类专栏：语音合成综述语音识别综述文章标签：语音识别人工智能机器学习深度学习 interspeech

于 2022-09-23 09:34:44 首次发布

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/127004404

版权

本文介绍了interspeech 2022大会上关于语音合成和识别的研究趋势。在语音合成领域，声学模型、声音转换、情感合成和个性化等方面占据主导，而语音识别则关注模型优化、多语言处理和鲁棒性。详细统计数据和论文列表可供参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

interspeech2022的文章列表：

https://www.isca-speech.org/archive/interspeech_2022/index.html

其中tts和vc的tutorials的ppt可参见：

tts:https://tts-tutorial.github.io/interspeech2022/INTERSPEECH_Tutorial_TTS.pdf

vc:https://tts-tutorial.github.io/interspeech2022/INTERSPEECH_Tutorial_VC.pdf

语音识别和语音合成论文统计表

https://docs.google.com/spreadsheets/d/1Bz52a3vMjLGvitx4M6OKp4w6YjVfjSAl-pvYS_aHrzY/edit?usp=sharing

(文章较多，统计难免存在错误，故本文仅供参考！仅供参考！）

一语音合成篇

以下表一给出具体分类说明。图一为interspeech 2022文章总数，共有178篇。表一和图二为语音合成每个研究方向的文章分布状况以及对比，由此可知声学模型、声音转换、情感合成系统、声码器、个性化和歌唱等占据绝对的优势。另外mos统计所有音频质量评估的文章，因为有相关的比赛，所以文章较多。

表一语音合成分类说明

分类	说明
frontend	多音字，韵律，g2p等等。
acoustic	语言特征转声学特征，attention工作，多说话人以及双重学习
vocoder	波形生成
adaptation	个性化，少数据，脏数据应用等自适应
multilingual	多语言模型