©PaperWeekly 原创 · 作者 | 黄融杰
单位 | 浙江大学
研究方向 | Speech/NLP
扩散模型在深度生成模型中自成一派,最近成为最热门的话题之一。扩散模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。
扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止,扩散模型已被应用于各种生成式语音建模任务,如语音合成(speech synthesis)、语音转换(speech conversion)、语音编辑(speech editing)、语音转换(speech-to-speech translation)等等。
然而,传统扩散模型主要基于梯度匹配的训练目标,因此高生成质量的保证通常以数百的去噪迭代为代价,给样本的快速合成带来阻碍。当试图减少去噪步时,去噪模型在复杂的数据分布中的收敛出现明显退化,导致样本中的带噪与过平滑的低质量生成结果。
浙江大学正在算法和网络结构层面探索如何让深度学习里最先进(State-of-the-art)的非自回归生成模型:降噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM),在解决其原来的速度瓶颈的同时,仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。
论文链接:
https://arxiv.org/abs/2204.09934
代码链接:
https://github.com/Rongjiehuang/FastDiff
论文链接:
https://arxiv.org/pdf/2207.06389.pdf
代码链接:
https://github.com/Rongjiehuang/ProDiff
在今年的 IJCAI 2022 和 ACM-MM 2022 上,浙江大学的两篇论文提出了全新的语音合成条件扩散模型 FastDiff 和 ProDiff,能大幅减少 DDPM 每步降噪所需时间在解决其原来的速度瓶颈的同时,仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。FastDiff,ProDiff分别在声码器和语音合成上得到验证,揭示了扩散生成模型的包括去噪起点、生成算法、噪声采样的加速方法,克服了因模型加速带来的生成性能损失。
研究背景
降噪扩散概率模型(Denois