浙大开源快速扩散语音合成模型FastDiff和ProDiff

最新推荐文章于 2024-06-11 16:00:00 发布

PaperWeekly

最新推荐文章于 2024-06-11 16:00:00 发布

阅读量1.5k

点赞数 2

文章标签：算法计算机视觉神经网络机器学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/127469679

版权

©PaperWeekly 原创 · 作者 | 黄融杰

单位 | 浙江大学

研究方向 | Speech/NLP

扩散模型在深度生成模型中自成一派，最近成为最热门的话题之一。扩散模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。

扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止，扩散模型已被应用于各种生成式语音建模任务，如语音合成（speech synthesis）、语音转换（speech conversion）、语音编辑（speech editing）、语音转换（speech-to-speech translation）等等。

然而，传统扩散模型主要基于梯度匹配的训练目标，因此高生成质量的保证通常以数百的去噪迭代为代价，给样本的快速合成带来阻碍。当试图减少去噪步时，去噪模型在复杂的数据分布中的收敛出现明显退化，导致样本中的带噪与过平滑的低质量生成结果。

浙江大学正在算法和网络结构层面探索如何让深度学习里最先进（State-of-the-art）的非自回归生成模型：降噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM），在解决其原来的速度瓶颈的同时，仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。

论文链接：

https://arxiv.org/abs/2204.09934

代码链接：

https://github.com/Rongjiehuang/FastDiff

论文链接：

https://arxiv.org/pdf/2207.06389.pdf

代码链接：

https://github.com/Rongjiehuang/ProDiff

在今年的 IJCAI 2022 和 ACM-MM 2022 上，浙江大学的两篇论文提出了全新的语音合成条件扩散模型 FastDiff 和 ProDiff，能大幅减少 DDPM 每步降噪所需时间在解决其原来的速度瓶颈的同时，仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。FastDiff，ProDiff分别在声码器和语音合成上得到验证，揭示了扩散生成模型的包括去噪起点、生成算法、噪声采样的加速方法，克服了因模型加速带来的生成性能损失。

研究背景

降噪扩散概率模型（Denois

最低0.47元/天解锁文章

PaperWeekly

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
浙大开源快速扩散语音合成模型FastDiff和ProDiff

©PaperWeekly 原创 ·作者 |黄融杰单位 |浙江大学研究方向 |Speech/NLP扩散模型在深度生成模型中自成一派，最近成为最热门的话题之一。扩散模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止，扩散模型已被应用于各种生成式语音建模任务，如语音合成（speech synthe...
复制链接

扫一扫