diffusion-TTS : ProDiff & FastDiff

最新推荐文章于 2024-08-19 10:16:24 发布

林林宋

最新推荐文章于 2024-08-19 10:16:24 发布

阅读量876

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40168949/article/details/129526986

版权

文章目录

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis
ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech
- intro

模型	RTF	生成结果

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

2021 ICML
华为诺亚，莫斯科
code

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

Songxiang Liu, Dan Su， Dong Yu
港中文/tencent AI
code
infer interactive page

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang work done in tencent AI Lab
demo page
IJCAI 2022 (2021年4月的工作）

abstract

DDPMs的模型因为迭代采样的方法，因而生成速度受限。
本为提出一种快速高质量端到端TTS生成的方法：（1）使用一系列不同感知野的time-aware location-variable conv，通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor，在不牺牲质量的情况下减少采样步数。
结果：在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

intro

DDPMs方法存在的两大挑战：（1）给定optimal gradient，通过de-noise的方式生成目标，但是有可能在较多时间步以后过度降噪——对于语音上的一些气流音、声带闭合等说话特性被抹去；（2）需要数百上千的step进行生成质量优化，如果step过少，背景噪声去不干净。
DDPM的优点：可以建模多种数据分布，比如图像和时间域。

method

motivation
- 问题：（1）和其他的生成模型不同，diffusion model 从带噪数据中建模，噪声的等级不同会引入更多信息变量；（2）减少迭代的时间步会明显的降低生成的质量。
- 方案：（1）使用time-aware location-variable conv，捕捉带噪样本的动态相关性；conv会考虑diffusion step，以及谱上的扰动，实现在反向加速过程中提高扩散模型的稳定性；（2）使用一个noise schedule predictor减少反向的时间步，

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech

Rongjie Huang
demo page
ACM MM 2022 (2022年9月的工作）

intro

存在的问题：（1）之前用DDPMs(Denoising diffusion probabilistic models)做TTS生成任务需要数百步才能生成高质量音频，速度很慢。难以工业应用。（2）如果减少steps，模型收敛变差，生成质量下降。
解决方法：本文提出ProDiff，progressive（逐步）diffusion model，用于高质量音频生成。之前的方式估计the gradient for data density，本文直接预测clean data，以避免在加速采样过程中造成质量损失。另外引入知识蒸馏，降低在目标域数据分布的变化。首先通过一个N-step DDIM teacher模型预测mel-spec，然后用N/2 step训练student model。如此，可以在保证生成质量的基础上，大幅减少预测速度。
取得结果：只需要2 iterations，就可以合成SOTA质量的音频。在2080 GPU上达到24x 实时。