【扩散模型】DDPM论文理解

福尔马林灌汤包

已于 2024-08-14 15:24:21 修改

阅读量978

点赞数 26

分类专栏：【扩散模型】diffusion图像生成理论学习文章标签：深度学习 stable diffusion

于 2024-08-13 17:28:25 首次发布

本文链接：https://blog.csdn.net/iloveyouqri/article/details/141167532

版权

【扩散模型】diffusion图像生成理论学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

DDPM（Denoising Diffusion Probabilistic Models）

更详细解读可以参考（这几个视频看完基本对DDPM的原理就能够把握了）

李宏毅
 大白话AI
b站公式推导1
b站公式推导2

基本过程

扩散模型受扩散现象的启发，通过逐步向图片中加入高斯噪声来模拟这种现象，并通过逆向过程从（随机）噪声中生成图片。
在这里插入图片描述

添加噪声的两个条件：（1）整个过程的状态都服从马尔科夫性质（2）每一步加入的噪声变化都比较少，则变化过程可以近似为高斯分布。

前向过程

加入噪声的混合公式：
在这里插入图片描述
将原始干净的图片x0通过此公式多次叠加噪声直到xT。
可以用式子来表达前一时刻和后一时刻的关系：

式中每一步的 $\epsilon$ 都是基于标准正太分布的重新采样的随机数。而且每一步的 $\beta$ 并不相同，从最开始某个接近0的数逐渐递增，到最后接近1，以模拟扩散过程的速度越来越快。即
在这里插入图片描述
为简化推导，令 $\alpha_t=1-\beta_t$ 得到
$x_t=\sqrt{1-\alpha_t}\times\epsilon_t+\sqrt{\alpha_t}\times x_{t-1}$
则 $x_t$ 和 $x_{t-2}$ 的关系式：
$x_{t}=\sqrt{a_{t}(1-a_{t-1})}\epsilon_{t-1}+\sqrt{1-a_{t}}\times\epsilon_{t}+\sqrt{a_{t}a_{t-1}}\times x_{t-2}$
利用正态分布和重参数化技巧可以将两个单独采样的正太分布化为一个正太分布，即
$x_t=\sqrt{1-\alpha_t\alpha_{t-1}}\times\epsilon+\sqrt{\alpha_t\alpha_{t-1}}\times x_{t-2}$
同理，可以推断
$x_t=\sqrt{1-\overline{\alpha}_t}\times\epsilon+\sqrt{\overline{\alpha}_t}\times x_0$
其中，
$\overline{\alpha}_t=a_ta_{t-1}a_{t-2}a_{t-3}...a_2a_1$
论文里使用正太分布的公式表示：
$q(\mathbf{x}_{1:T}|\mathbf{x}_{0}):=\prod_{t=1}^{T}q(\mathbf{x}_{t}|\mathbf{x}_{t-1}),\quad q(\mathbf{x}_{t}|\mathbf{x}_{t-1}):=\mathcal{N}(\mathbf{x}_{t};\sqrt{1-\beta_{t}}\mathbf{x}_{t-1},\beta_{t}\mathbf{I})$
到最终 $\beta_t$ 会趋于1，均值趋于0，方差趋于1，即最终的图像近似为高斯分布的随机噪声图像。

反向过程

由后一时刻的图片求解出前一时刻的图片，利用贝叶斯公式
$P(x_{t-1}|x_t,x_0)=\frac{P(x_t|x_{t-1},x_0)P(x_{t-1}|x_0)}{P(x_t|x_0)}$
化简得到
$P(x_{t-1}|x_{t},x_{0})\sim N\left(\frac{\sqrt{a_{t}}(1-\bar{a}_{t-1})}{1-\bar{a}_{t}}x_{t}+\frac{\sqrt{a_{t-1}}(1-a_{t})}{1-\bar{a}_{t}}x_{0},\left(\frac{\sqrt{1-a_{t}}\sqrt{1-\bar{a}_{t-1}}}{\sqrt{1-\bar{a}_{t}}}\right)^{2}\right)$
由于反向过程的 $x_t$ 已知， $x_0$ 需要求解，故通过前向过程的关系式将 $x_0$ 替换，得到
$\begin{aligned}P(x_{t-1}|x_{t},x_{0})&\sim N\left(\frac{\sqrt{a_{t}}(1-\bar{a}_{t-1})}{1-\bar{a}_{t}}x_{t}+\frac{\sqrt{\bar{a}_{t-1}}(1-a_{t})}{1-\bar{a}_{t}}\right.\\&\times\frac{x_{t}-\sqrt{1-\bar{a}_{t}}\times\epsilon}{\sqrt{\bar{a}_{t}}},\left(\sqrt{\frac{\beta_{t}(1-\bar{a}_{t-1})}{1-\bar{a}_{t}}}\right)^{2}\end{aligned}$
其中的 $\epsilon$ 是 $x_0$ 到任意时刻 $t$ 的图片 $x_t$ 直接加噪的噪声，因此可以训练神经网络对输入 $x_t$ 和步骤 $t$ ，输出估计的 $\epsilon$ ，从而求解出 $x_{t-1}$ ，再将得到的 $x_{t-1}$ 和 $t - 1$ 输入神经网络得到 $x_{t-2}$ ，从而一步步计算最终得到 $x_0$ 。
论文里提到反向过程可以看成如下公式：
$p_\theta(\mathbf{x}_{0:T}):=p(\mathbf{x}_T)\prod_{t=1}^Tp_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t),\quad p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t):=\mathcal{N}(\mathbf{x}_{t-1};\boldsymbol{\mu}_\theta(\mathbf{x}_t,t),\boldsymbol{\Sigma}_\theta(\mathbf{x}_t,t))$
使用神经网络来估计参数。

训练过程Loss推导

模型的输出为
$p\big(\mathbf{x}^{(0\cdots T)}\big)=p\big(\mathbf{x}^{(T)}\big)\prod_{t=1}^Tp\big(\mathbf{x}^{(t-1)}|\mathbf{x}^{(t)}\big)$
由于我们只对最终的输出 $x_0$ 感兴趣，因此对联合概率密度求积分得到 $x_0$ 的边缘分布
$\begin{gathered} p\big(\mathbf{x}^{(0)}\big)=\int d\mathbf{x}^{(1\cdots T)}p\big(\mathbf{x}^{(0\cdots T)}\big)\frac{q\big(\mathbf{x}^{(1\cdots T)}|\mathbf{x}^{(0)}\big)}{q\big(\mathbf{x}^{(1\cdots T)}|\mathbf{x}^{(0)}\big)} \\ =\int d\mathbf{x}^{(1\cdots T)}q\big(\mathbf{x}^{(1\cdots T)}|\mathbf{x}^{(0)}\big)\frac{p\big(\mathbf{x}^{(0\cdots T)}\big)}{q\big(\mathbf{x}^{(1\cdots T)}|\mathbf{x}^{(0)}\big)} \\ =\int d\mathbf{x}^{(1\cdots T)}q\big(\mathbf{x}^{(1\cdots T)}|\mathbf{x}^{(0)}\big)\cdot p\big(\mathbf{x}^{(T)}\big)\prod_{t=1}^{T}\frac{p\big(\mathbf{x}^{(t-1)}|\mathbf{x}^{(t)}\big)}{q\big(\mathbf{x}^{(t)}|\mathbf{x}^{(t-1)}\big)}. \end{gathered}$
则negative log likelihood：
$-L=d\mathbf{x}^{(0)}q\big(\mathbf{x}^{(0)}\big)\mathrm{log}\int p\big(\mathbf{x}^{(0)}\big)$
可化为
$\mathbb{E}_q[-\log\frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T}|\mathbf{x}_0)}]=\mathbb{E}_q[-\log p(\mathbf{x}_T)-\sum_{t\geq1}\log\frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)}{q(\mathbf{x}_t|\mathbf{x}_{t-1})}]$
继续转化为论文里的公式
在这里插入图片描述
关于最后一步化为 $D_{KL}$ ，即KL散度。

可以查看对KL散度简短的理解介绍
KL散度

其中， $L_T$ 项的 $p(x_T)$ 是已知的要变化的图像，近似为高斯噪声图像， $q(\mathbf{x}_t|\mathbf{x}_0)$ 在前向过程中推导过了，在前向过程中除了随机采样，其他的所有量都是已知的，因此 $L_T$ 就是一个已知的正态分布进行随机采样，故不需要训练。
而 $L_{t-1}$ 项的 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 是在反向过程中推导的已知的后验概率，而后一部分就是神经网络需要找到的分布
$p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t}){:}=\mathcal{N}(\mathbf{x}_{t-1};\boldsymbol{\mu}_{\theta}(\mathbf{x}_{t},t),\boldsymbol{\Sigma}_{\theta}(\mathbf{x}_{t},t))$
根据两个高斯分布的KLD公式：
$\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac12$
由于两个时刻的高斯分布的方差相差无几，故 $\log\frac{\sigma_2}{\sigma_1}$ 可视为一个常数，因此的目标就是最小化两个均值差
$L_{t-1}=\mathbb{E}_q\left[\frac{1}{2\sigma_t^2}\|\widetilde{\boldsymbol{\mu}}_t(\mathbf{x}_t,\mathbf{x}_0)-\boldsymbol{\mu}_\theta(\mathbf{x}_t,t)\|^2\right]+C$
同理，替换 $x_0$ 得到
$\begin{aligned}L_{t-1}-C&=\mathbb{E}_{\mathbf{x}_{0},\boldsymbol{\epsilon}}\left[\frac{1}{2\sigma_{t}^{2}}\|\widetilde{\boldsymbol{\mu}}_{t}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\boldsymbol{\epsilon}),\frac{1}{\sqrt{\boldsymbol{\alpha}}_{t}}\big(\mathbf{x}_{t}(\mathbf{x}_{0},\boldsymbol{\epsilon})-\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon}\big)\right)-\underline{\boldsymbol{\mu}_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\boldsymbol{\epsilon}),t)}\|^{2}\right]\\&=\mathbb{E}_{\mathbf{x}_{0},\boldsymbol{\epsilon}}\left[\frac{1}{2\sigma_{t}^{2}}\|\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\boldsymbol{\epsilon})-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}}\boldsymbol{\epsilon}\right)-\boldsymbol{\mu}_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\boldsymbol{\epsilon}),t)\|^{2}\right]\end{aligned}$
再将系数比值简化化为1，得到最核心的最小化目标：
$L_{\mathrm{simple}}(\theta){:}=\mathbb{E}_{t,\mathbf{x}_{0},\boldsymbol{\epsilon}}\big[\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_{\theta}(\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon},t)\|^{2}\big]$
因此，DDPM的核心就是模拟预测输入图像的noise。
而对于第三项 $L_0$ 按如下公式进行离散化处理
在这里插入图片描述
对于此处的边界认为从 $x_0$ 到 $x_1$ 和从 $x_1$ 到 $x_0$ 是完全相同的，实际上也可以将 $x_1$ 直接当作最后的输出了。(CVPR2024有篇论文Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models针对 $x_1$ 到 $x_0$ 处进行处理从而解决了扩散模型生成纯白和纯黑的问题）