扩散模型（Diffusion Model）——由浅入深的理解

WSLGN

已于 2023-10-08 22:15:38 修改

阅读量8.3w

收藏 1.3k

点赞数 329

分类专栏：机器学习文章标签：机器学习神经网络

于 2022-04-27 01:48:54 首次发布

本文链接：https://blog.csdn.net/Little_White_9/article/details/124435560

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

Diffusion Model——由浅入深的理解

概览
扩散过程
逆扩散过程
损失函数
总结
参考

Diffusion model 是一种图片生成的范式，大量的数学公式让许多同学望而却步，但实际研究下来，它的公式推导其实大部分都在射程范围之内。

本文在概览中对Diffusion model抛去细节做一个整体的梳理，而细节的推导会在下文的扩散过程、逆扩散过程、损失函数中展示。如果只想对Diffusion model有一个定性的了解而不关系推导的话，只看概览就可以了。

概览

在这里插入图片描述
扩散模型有两个过程，分别为扩散过程和逆扩散过程。

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。 $X_0$ 表示从真实数据集中采样得到的一张图片，对 $X_0$ 添加 $T$ 次噪声，图片逐渐变得模糊，当 $T$ 足够大时， $X_T$ 为标准正态分布。在训练过程中，每次添加的噪声是已知的，即 $q(X_t|X_{t-1})$ 是已知的，根据马尔科夫过程的性质，我们可以递归得到 $q(X_t|X_0)$ ，即 $q(X_t|X_0)$ 是已知的。扩散过程最主要的就是 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 的推导，推导细节见下文的扩散过程。

如上图所示，逆扩散过程为从左到右（ $X_T \rightarrow X_0$ ）的过程，表示从噪声中逐渐复原出图片。如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络，在原文中就是个U-Net。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的，因此我们可以用 $q(X_{t-1}|X_tX_0)$ 来指导 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。逆扩散过程最主要的就是 $q(X_{t-1}|X_tX_0)$ 的推导，推导细节见下文的逆扩散过程。

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，而显然这两种都不好搞，因此他参考了VAE，不去优化这两个东西，而是优化他们的变分上界(variational lower bound)，定义 $L_{VLB}$ 如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\tag{1} \\ 可证：L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$
即 $L_{VLB}$ 减小就代表 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界减小。
且经过推导， $L_{VLB}$ 可写成如下形式：
$L_{VLB} = L_{T} + L_{T-1} + ...+ L_{0}\tag{2}$ $L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_{t+1}X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
由上式不难发现， $L_{t}$ 就是逆扩散过程中 $q(X_{t}|X_{t+1}X_0)$ 和 $p_{Θ}(X_{t}|X_{t+1})$ 的KL散度，这也就是我上面说的，用 $q(X_{t}|X_{t+1}X_0)$ 来指导 $p_{Θ}(X_{t}|X_{t+1})$ 进行训练。这部分主要就是(1)式和(2)式的推导，细节部分见下文的损失函数。

扩散过程

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。且每一步扩散的步长受变量 $\{β_{t} \in (0,1)\}_{t=1}^{T}$ 的影响。 $q(X_{t}|X_{t-1})$ 可写为如下形式，即给定 $X_{t-1}$ 的条件下， $X_{t}$ 服从均值为 $\sqrt{1-β_{t}}X_{t-1}$ ，方差为 $β_{t}I$ 的正态分布:
$q(X_{t}|X_{t-1}) = N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)\tag{3}$
用重参数化技巧表示 $X_{t}$ ，令 $α_{t}=1-β_{t}$ ，令 $Z_{t} \sim N(0,I), t \ge 0$ ，即:
$X_{t}= \sqrt{α_{t}}X_{t-1}+\sqrt{1-α_{t}}Z_{t-1}\tag{4}$
写多几行:
$X_{t-1}= \sqrt{α_{t-1}}X_{t-2}+\sqrt{1-α_{t-1}}Z_{t-2}\\ X_{t-2}= \sqrt{α_{t-2}}X_{t-3}+\sqrt{1-α_{t-2}}Z_{t-3}\\ ...\\ X_{1}= \sqrt{α_{1}}X_{0}+\sqrt{1-α_{1}}Z_{0}$
易归纳得，令 $\bar{α}_{t}= {\textstyle \prod_{i=1}^{t}α_{i}}$ ：
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
设随机变量 $\tilde{Z}_{t-1}$ 为：
$\tilde{Z}_{t-1}=\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
则 $\tilde{Z}_{t-1}$ 的期望和方差如下：
$E(\tilde{Z}_{t-1})=0\\ D(\tilde{Z}_{t-1})=\frac{{\bar{α}_{t}}}{{α_{1}}}(1-α_{1})+\frac{{\bar{α}_{t}}}{{\bar{α}_{2}}}(1-α_{2})+\frac{{\bar{α}_{t}}}{{\bar{α}_{3}}}(1-α_{3})+...+\frac{{\bar{α}_{t}}}{{\bar{α}_{t}}}(1-α_{t})=1-\bar{α}_{t}$
所以，
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\tilde{Z}_{t-1}=\sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}\bar{Z}_{t-1}, \bar{Z}_{t-1}\sim N(0,I)\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α}_t)I)$
至此，我们推出了 $q(X_{t}|X_{t-1})$ 和 $q(X_{t}|X_{0})$ 。

逆扩散过程

如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的。
下面对 $q(X_{t-1}|X_tX_0)$ 进行推导:
$q(X_{t-1}|X_tX_0)=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_t)}=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_{t-1})}\frac{q(X_{0}X_{t-1})}{q(X_{0}X_{t})}=q(X_t|X_{t-1}X_0)*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}\\ \because 扩散过程是马尔科夫过程\\ \therefore q(X_t|X_{t-1}X_0)=q(X_t|X_{t-1})\\ \therefore q(X_{t-1}|X_tX_0)=q(X_t|X_{t-1})*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}$
至此，已经把 $q(X_{t-1}|X_tX_0)$ 用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 进行表示，下面对 $q(X_{t-1}|X_tX_0)$ 的表达式进行推导:
$q(X_t|X_{t-1})=N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)=\frac{1}{\sqrt{2\pi(1-α_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{α_t}X_{t-1})^2}{1-α_t})\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α_t})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{\bar{α}_t}X_{0})^2}{1-\bar{α}_t})\\ q(X_{t-1}|X_0)=N(X_{t-1};\sqrt{\bar{α}_{t-1}}X_0,(1-\bar{α}_{t-1})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t-1})}}exp(-\frac{1}{2}\frac{(X_{t-1}-\sqrt{\bar{α}_{t-1}}X_{0})^2}{1-\bar{α}_{t-1}})$
$q(X_{t-1}|X_tX_0)=\frac{1}{\sqrt{2\pi\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}}β_t}exp(-\frac{1}{2\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t}(X_{t-1}^{2}-2(\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t})X_{t-1}+C(X_0,X_t))\\ q(X_{t-1}|X_tX_0)=N(X_{t-1};\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t},\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t)\\ \because X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}\bar{Z}_{t-1},\bar{Z}_{t-1}\sim N(0,I)\\ \therefore q(X_{t-1}|X_tX_0)=N(X_{t-1}; \frac{1}{\sqrt{α}_t}X_t-\frac{β_t}{\sqrt{α_t(1-\bar{α}_t)}}\bar{Z}_{t-1} ,\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t),\bar{Z}_{t-1}\sim N(0,I)$
至此，得到了 $q(X_{t-1}|X_tX_0)$ 的分布表达式。
在下文的损失函数中，会介绍我们要怎么用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。

损失函数

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，然而，类似于VAE，由于我们很难对噪声空间进行积分，因此直接优化 $logp_{Θ}(X_0)$ 或 $E_{q(X_0)}logp_{Θ}(X_0)$ 是很困难的，因此我们不会直接优化它们，而是优化 $logp_{Θ}(X_0)$ 的变分下界 $L_{VLB}$ ， $L_{VLB}$ 的定义如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]$
下面证明 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界，即证明 $L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$ :
$-logp_{Θ}(X_0) \le -logp_{Θ}(X_0) + D_{KL}(q(X_{1:t}|X_0)||p_{Θ}(X_{1:T}|X_0))\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{1:T}|X_0)})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)p_{Θ}(X_{0})}{p_{Θ}(X_{0:T})})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}+log(p_{Θ}(X_{0})))\\=E_{X_{0:T}\sim q(X_{0:T})}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})})=L_{VLB}$
$L_{CE}=-\int q(X_0)logp_{Θ}(X_0)dX_0=-E_{q(X_0)}logp_{Θ}(X_0)\\=-E_{q(X_0)}log(\int p_{Θ}(X_{1:T}|X_0)p_{Θ}(X_0)dX_{1:T})\\=-E_{q(X_0)}log(\int p_{Θ}(X_{0:T})dX_{1:T})\\=-E_{q(X_0)}log(\int q(X_{1:T}|X_0)\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)} dX_{1:T})\\=-E_{q(X_0)}(log(E_{q(X_{1:T}|X_0)}\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\\le-E_{q(X_0)}(E_{q(X_{1:T}|X_0)}log(\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\=E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]=L_{VLB}$
至此，证明了 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界。
下面，对 $L_{VLB}$ 化简：
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\\=E_{q(x_{0:T})}[log\frac{\textstyle \prod_{t=1}^{T}q(X_{t}|X_{t-1})}{p_{Θ}(X_{T}){\textstyle \prod_{t=1}^{T}}p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=1}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(X_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log(\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}*\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)} )+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+\sum_{t=2}^{T}log\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{T}|X_0)}{q(X_{1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[log\frac{q(X_T|X_0)}{p_{Θ}(X_T)} +\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}-logp_{Θ}(X_{0}|X_1)]\\=D_{KL}(q(X_T|X_0)||p_{Θ}(X_T))+\sum_{t=2}^{T} D_{KL}(q(X_{t-1}|X_tX_0)||p_{Θ}(X_{t-1}|X_t))-logp_{Θ}(X_{0}|X_1)\\= L_{T} + L_{T-1} + ...+ L_{0}\\where: L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_t+1X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
从 $L_{t}$ 即可看出，对 $p_{Θ}(X_{t}|X_{t+1})$ 的监督就是最小化 $p_{Θ}(X_{t}|X_{t+1})$ 和 $q(X_t|X_{t+1}X_0)$ 的KL散度。

总结

简单的说，我们的目的是希望学习出一个 $p_{Θ}(X_{t-1}|X_t)$ ，即能够从噪声图恢复出原图。
为了达到这一个目的，我们使用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练， $q(X_{t-1}|X_tX_0)$ 是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是已知的。