​生成扩散模型漫谈:DDPM = 拆楼 + 建楼

本文通过“拆楼-建楼”的类比,介绍了生成扩散模型DDPM(Denoising Diffusion Probabilistic Model)。DDPM不同于传统的扩散模型,它是一个渐变模型,通过反向过程从随机噪声逐步生成高分辨率图像。DDPM通过一系列“拆楼”步骤,将数据样本逐步转换为随机噪声,然后学习逆变换来“建楼”,生成样本。与PixelRNN/PixelCNN等自回归模型相比,DDPM减少了Inductive Bias的影响,提高了生成效果和速度。
摘要由CSDN通过智能技术生成

5fd420f6f67ddd7787e82e392a3c8a02.gif

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络

说到生成模型,VAEGAN 可谓是“如雷贯耳”,本站也有过多次分享。此外,还有一些比较小众的选择,如 flow 模型 [1]、VQ-VAE [2] 等,也颇有人气,尤其是 VQ-VAE 及其变体 VQ-GAN [3],近期已经逐渐发展到“图像的Tokenizer”的地位,用来直接调用 NLP 的各种预训练方法。除了这些之外,还有一个本来更小众的选择——扩散模型(Diffusion Models)——正在生成模型领域“异军突起”,当前最先进的两个文本生成图像——OpenAI 的 DALL·E 2 [4] 和 Google 的 Imagen [5],都是基于扩散模型来完成的。

e56ab5889906cd01e5b6e87209e0ef2d.png

▲ Imagen“文本-图片”的部分例子

从本文开始,我们开一个新坑,逐渐介绍一下近两年关于生成扩散模型的一些进展。据说生成扩散模型以数学复杂闻名,似乎比 VAE、GAN 要难理解得多,是否真的如此?扩散模型真的做不到一个“大白话”的理解?让我们拭目以待。

7541724c21688589eed7683680a3bd91.png

新的起点

其实我们在之前的文章《能量视角下的 GAN 模型(三):生成模型=能量模型》[6]、《从去噪自编码器到生成模型》也简单介绍过扩散模型。说到扩散模型,一般的文章都会提到能量模型(Energy-based Models)、得分匹配(Score Matching)、朗之万方程(Langevin Equation)等等,简单来说,是通过得分匹配等技术来训练能量模型,然后通过郎之万方程来执行从能量模型的采样。

从理论上来讲,这是一套很成熟的方案,原则上可以实现任何连续型对象(语音、图像等)的生成和采样。但从实践角度来看,能量函数的训练是一件很艰难的事情,尤其是数据维度比较大(比如高分辨率图像)时,很难训练出完备能量函数来;另一方面,通过朗之万方程从能量模型的采样也有很大的不确定性,得到的往往是带有噪声的采样结果。所以很长时间以来,这种传统路径的扩散模型只是在比较低分辨率的图像上做实验。

如今生成扩散模型的大火,则是始于 2020 年所提出的 DDPM [7](Denoising Diffusion Probabilistic Model),虽然也用了“扩散模型”这个名字,但事实上除了采样过程的形式有一定的相似之外,DDPM 与传统基于朗之万方程采样的扩散模型可以说完全不一样,这完全是一个新的起点、新的篇章。

准确来说,DDPM 叫“渐变模型”更为准确一些,扩散模型这一名字反而容易造成理解上的误解,传统扩散模型的能量模型、得分匹配、朗之万方程等概念,其实跟 DDPM 及其后续变体都没什么关系。有意思的是,DDPM 的数学框架其实在 ICML 2015的论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》[8] 就已经完成了,但 DDPM 是首次将它在高分辨率图像生成上调试出来了,从而引导出了后面的火热。由此可见,一个模型的诞生和流行,往往还需要时间和机遇.

bbdecea97fc6d96fb500f76207f1fdbd.png

拆楼建楼

很多文章在介绍 DDPM 时,上来就引入转移分布,接着就是变分推断,一堆数学记号下来,先吓跑了一群人(当然,从这种介绍我们可以再次看出,DDPM 实际上是 VAE 而不是扩散模型),再加之人们对传统扩散模型的固有印象,所以就形成了“需要很高深的数学知识”的错觉。事实上,DDPM 也可以有一种很“大白话”的理解,它并不比有着“造假-鉴别”通俗类比的 GAN 更难。

首先,我们想要做一个像 GAN 那样的生成模型,它实际上是将一个随机噪声 变换成一个数据样本 的过程:

c2cae1330a5abf80cdc50cf20bcd396d.png

我们可以将这个过程

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值