一文读懂扩散模型原理、推断加速和可控生成

本文深入浅出地介绍了扩散模型的基本原理,包括其在图像、视频等领域的广泛应用。针对扩散模型的两大挑战——推断加速和可控生成,文章详细探讨了相关技术和最新进展,如Analytic-DPM的采样加速方法和分类器指导、能量指导等条件生成策略。此外,还介绍了U-ViT模型等主干网络设计。未来的研究将聚焦于模型优化、推断加速和更好的可控性。
摘要由CSDN通过智能技术生成

在刚刚过去的2022年,扩散模型(Diffusion Models)成为了深度生成模型中新的SOTA。近期,中国人民大学助理教授李崇轩和清华大学博士生鲍凡在由智源社区主办的“2022大模型创新论坛·峰会-模型技术分论坛”上分享了题为「扩散概率模型:原理、加速推断与可控生成」的报告,介绍了目前大火的扩散模型的基本原理。重点针对扩散模型领域的两大重点问题——「推断加速」「可控生成」展开了讨论。同时,李崇轩和鲍凡也是ICLR2022杰出论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》的作者。智源社区整理主要技术内容如下:

整理:熊宇轩

扫描下方二维码,和作者一同交流「扩散模型」相关话题,或可添加小助手baai2020微信号,备注「扩散模型」进群交流

51cfacce71000ce516b754eceb8078e6.jpeg


扩散模型是一类生成模型。给定一组分布未知的数据,生成模型旨在刻画出其底层的数据分布。具体而言,我们设置参数化的模型,并最小化真实数据与生成数据分布之间的散度估计模型参数,近似未知的数据分布。在物理学领域中,扩散过程会将结构逐渐破坏。例如,染料逐渐从有序状态变为无序状态。这一过程的逆过程可以被看作对结构的恢复。

4522b50a669e1dc231fd520b4dc041f3.png

在扩散模型中,扩散过程对应于向原始数据分布添加马尔科夫高斯噪声,而恢复结构的过程则对应于从高斯先验出发,学习去躁/生成数据,从而对数据分布建模。

f64ede94aba024f957c06635db1e4bdc.png

目前,扩散模型已经被广泛应用于“图文生成”、“视频生成”、“3D场景生成”、“分子结构生成”等技术,服务于“AI绘画”、“封面制作”、“AI制药”等业务场景。

扩散模型:基本原理

73c46b4bd33d38ebdddf2ac0ccb259a1.png

Sohl-Dickstein 等人在 ICML 2015 上首次提出了扩散概率模型。扩散概率模型的前馈扩散过程是一个采用高斯核的马尔科夫链,包含超过 1000 个状态。每一步的状态转移方程是一个线性的高斯函数,其中aad3f705f8157034d525c6b5b5fe721b.png为高斯噪声方差的大小。当加入噪声的步骤累计足够多时,修改后的数据可以被视为标准的高斯噪声。

19c375236f3d0a50e025f7de6b114713.png

我们希望通过模型近似扩散过程的逆过程,实现去躁的效果。由扩散模型的数学性质可知,当每一步加入的噪声足够小时,前向加噪和反向去躁过程具有相同的概率分布形式。

因此,我们仍然将反向扩散过程建模为采用高斯核的马尔科夫链,高斯函数的均值和协方差通过以时间为条件的神经网络被参数化。网络的输入为当前的状态6fe5881ad6b2e191f61abe0efa482a12.png和时间节点 t,第 t 时刻的状态335d5b94e508cd640fdf223ba1bb9532.png通过共享参数的若干卷积层提取特征,基于该特征用两个不同的预测分支分别输出高斯函数的均值和方差。

fa2159ed78dad4f8847cd7db8cf896c1.png

原始的扩散模型采用极大似然估计作为目标函数来训练,由于无法直接计算边缘概率,这里我们采用变分的证据下界 ELBO。其中变分后验对应于扩散模型的前向加噪过程,生成模型对应于逆向的马尔科夫链。值得一提的是,变分自编码器(VAE)中的变分后验是可学习的,而扩散模型中的变分后验是固定的前向过程。因此,可以将扩散概率模型看做具有固定变分后验的层次化隐变量模型。

544bee99cb68f6ef4d2c5d9f62ca8adc.png

ELBO 可以被分解为如上图所示的形式,包含 T 个 KL 散度之和。然而,直接对其进行每一次更新的时间复杂度为 O(T)。为了降低计算开销,我们将 KL 散度之和视为期望,并每次随机选择其中的一项进行优化,从而将时间复杂度降低为 O(1)。KL 散度中的 p 和 q 两项都是高斯分布,可以将 q 改写为如上图中绿色部分的封闭形式,采用回归目标函数学习。原始的扩散概率模型的生成效果并不理想,对轮廓、细节、结构的建模有待提高。

DDPM:去躁扩散概率模型

在 NeurIPS 2021 上,Jonathon 等人发表了论文《Denoising diffusion probablistic models》。对扩散概率模型进行了如下改进,大大提升了模型的生成效果:使用固定的方差归回均值;用fb790a74792ac0856eef0122aeb866f9.png和噪声表示cd0461291637cb6765b94e901f71bc51.png,通过均值预测网络重参数化eb34ad612542fa7cbad9e78914a6117a.png,将关于均值的差322b40226aacb261b74f999707b32db9.png改写为噪声预测网络与噪声的差1a44041f7c98c028bdbfb03758aa6c85.png,将目标函数改写为噪声预测的形式;对高斯噪声进行回归预测。值得一提的是,噪声预测的目标函数与去躁得分匹配(DSM)技术具有等价关系。

72a5a8ea01d3ae629b6c6244ec624cb8.png

除此之外,DDPM 对扩散模型的架构也进行了相应改进。DDPM 采用了 U-net 形式的架构,引入了跳跃链接,将底层特征用于较深的层,更加适用于像素级别的预测任务,大大提升了模型性能。

此后,Song 等人在 ICLR 2021 上将扩散模型的前向扩散过程从离散时间拓展为连续时间。具体而言,他将前向过程重参数化为

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值