浙大开源快速扩散语音合成模型FastDiff和ProDiff

365bdff3461d27e8d5ee0779102b6f4c.gif

©PaperWeekly 原创 · 作者 | 黄融杰

单位 | 浙江大学

研究方向 | Speech/NLP

扩散模型在深度生成模型中自成一派,最近成为最热门的话题之一。扩散模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。

扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止,扩散模型已被应用于各种生成式语音建模任务,如语音合成(speech synthesis)、语音转换(speech conversion)、语音编辑(speech editing)、语音转换(speech-to-speech translation)等等。

然而,传统扩散模型主要基于梯度匹配的训练目标,因此高生成质量的保证通常以数百的去噪迭代为代价,给样本的快速合成带来阻碍。当试图减少去噪步时,去噪模型在复杂的数据分布中的收敛出现明显退化,导致样本中的带噪与过平滑的低质量生成结果。

浙江大学正在算法和网络结构层面探索如何让深度学习里最先进(State-of-the-art)的非自回归生成模型:降噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM),在解决其原来的速度瓶颈的同时,仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。

5afa514a8dcaab273810bed59348c178.png

论文链接:

https://arxiv.org/abs/2204.09934

代码链接:

https://github.com/Rongjiehuang/FastDiff

d34aab086a057c852d32d739368eae84.png

论文链接:

https://arxiv.org/pdf/2207.06389.pdf

代码链接:

https://github.com/Rongjiehuang/ProDiff

在今年的 IJCAI 2022 和 ACM-MM 2022 上,浙江大学的两篇论文提出了全新的语音合成条件扩散模型 FastDiff 和 ProDiff,能大幅减少 DDPM 每步降噪所需时间在解决其原来的速度瓶颈的同时,仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。FastDiff,ProDiff分别在声码器和语音合成上得到验证,揭示了扩散生成模型的包括去噪起点、生成算法、噪声采样的加速方法,克服了因模型加速带来的生成性能损失。

a367db24fd634603d671990b3247e08e.png

研究背景

降噪扩散概率模型(Denois

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值