Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech(ICML 2021)
KAKAO公司与KAIST韩国科学院,近年在TTS领域佳作频出,目前最主流的HiFiGAN声码器也是其成果。
目录
1. 变分推断(Variational Inference)
概览:
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。结合VAE和FLOW的前沿架构。
代码: https://github.com/jaywalnut310/vits
Demo地址: https://jaywalnut310.github.io/vits
论文地址:https://arxiv.org/abs/2106.0610
突破点:
-
首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。声称目前公开系统最好效果。
- 得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。
- 训练非常简便,完全E2E。不需要像Fastspeech系列模型需要额外提pitch, energy等特征,也不像多数2-stage架构需要根据声学模型的输出来finetune声码器以达到最佳效果。
- 摆脱了预设的声学谱作为链接声学模型和声码器的特征,成功的应用来VAE去E2E的学习隐性表示来链接两个模块
- 多说话人模型自然度不下降,不像其他模型趋于持平GT录音MOS分