interspeech 2022 语音合成和语音识别简报

本文介绍了interspeech 2022大会上关于语音合成和识别的研究趋势。在语音合成领域,声学模型、声音转换、情感合成和个性化等方面占据主导,而语音识别则关注模型优化、多语言处理和鲁棒性。详细统计数据和论文列表可供参考。
摘要由CSDN通过智能技术生成


interspeech2022的文章列表:

https://www.isca-speech.org/archive/interspeech_2022/index.html

其中tts和vc的tutorials的ppt可参见:

tts:https://tts-tutorial.github.io/interspeech2022/INTERSPEECH_Tutorial_TTS.pdf

vc:https://tts-tutorial.github.io/interspeech2022/INTERSPEECH_Tutorial_VC.pdf

语音识别和语音合成论文统计表

https://docs.google.com/spreadsheets/d/1Bz52a3vMjLGvitx4M6OKp4w6YjVfjSAl-pvYS_aHrzY/edit?usp=sharing

(文章较多,统计难免存在错误,故本文仅供参考!仅供参考!)


一 语音合成篇

以下表一给出具体分类说明。图一为interspeech 2022文章总数,共有178篇。表一和图二为语音合成每个研究方向的文章分布状况以及对比,由此可知声学模型、声音转换、情感合成系统、声码器、个性化和歌唱等占据绝对的优势。另外mos统计所有音频质量评估的文章,因为有相关的比赛,所以文章较多。

表一  语音合成分类说明

分类

说明

frontend

多音字,韵律,g2p等等。

acoustic

语言特征转声学特征,attention工作,多说话人以及双重学习

vocoder

波形生成

adaptation

个性化,少数据,脏数据应用等自适应

multilingual

多语言模型

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值