以下是 VITS 与 WeTTS 的技术解释及关系说明,基于公开资料整理:
1. VITS(Variational Inference with adversarial learning for Text-to-Speech)
- 定位:由韩国科学院(KAIST)于2021年提出的端到端语音合成模型,结合条件变分自编码器(VAE)与对抗训练,首次实现合成语音自然度接近人类水平(MOS 4.43,仅低于真实录音0.03)[9]。
- 核心技术:
- 变分推断:通过VAE建模语音潜在分布,结合Normalizing Flow提升生成质量。
- 随机时长预测:解决传统TTS音素对齐的梯度中断问题,支持端到端训练。
- 对抗训练:使用多尺度判别器优化语音自然