diffusion-TTS : ProDiff & FastDiff

模型RTF生成结果

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

  • 2021 ICML
  • 华为诺亚,莫斯科
  • code

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

  • Rongjie Huang work done in tencent AI Lab
  • demo page
  • IJCAI 2022 (2021年4月的工作)

abstract

DDPMs的模型因为迭代采样的方法,因而生成速度受限。
本为提出一种快速高质量端到端TTS生成的方法:(1)使用一系列不同感知野的time-aware location-variable conv,通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor,在不牺牲质量的情况下减少采样步数。
结果:在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

intro

DDPMs方法存在的两大挑战:(1)给定optimal gradient,通过de-noise的方式生成目标,但是有可能在较多时间步以后过度降噪——对于语音上的一些气流音、声带闭合等说话特性被抹去;(2)需要数百上千的step进行生成质量优化,如果step过少,背景噪声去不干净。
DDPM的优点:可以建模多种数据分布,比如图像和时间域。

method

  • motivation
    • 问题:(1)和其他的生成模型不同,diffusion model 从带噪数据中建模,噪声的等级不同会引入更多信息变量;(2)减少迭代的时间步会明显的降低生成的质量。
    • 方案:(1) 使用time-aware location-variable conv,捕捉带噪样本的动态相关性;conv会考虑diffusion step,以及谱上的扰动,实现在反向加速过程中提高扩散模型的稳定性;(2)使用一个noise schedule predictor减少反向的时间步,

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech

  • Rongjie Huang
  • demo page
  • ACM MM 2022 (2022年9月的工作)

intro

存在的问题:(1)之前用DDPMs(Denoising diffusion probabilistic models)做TTS生成任务需要数百步才能生成高质量音频,速度很慢。难以工业应用。(2)如果减少steps,模型收敛变差,生成质量下降。
解决方法:本文提出ProDiff,progressive(逐步)diffusion model,用于高质量音频生成。之前的方式估计the gradient for data density,本文直接预测clean data,以避免在加速采样过程中造成质量损失。另外引入知识蒸馏,降低在目标域数据分布的变化。首先通过一个N-step DDIM teacher模型预测mel-spec,然后用N/2 step训练student model。如此,可以在保证生成质量的基础上,大幅减少预测速度。
取得结果:只需要2 iterations,就可以合成SOTA质量的音频。在2080 GPU上达到24x 实时。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值