Diffusion Model扩散模型原理

最新推荐文章于 2024-05-10 16:42:22 发布

IMPORT_UTIL

最新推荐文章于 2024-05-10 16:42:22 发布

阅读量2.1k

点赞数 3

分类专栏：机器学习文章标签：概率论机器学习深度学习

本文链接：https://blog.csdn.net/IMPORT_JAVA_UTIL/article/details/125203158

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文并非原创，只是个人的学习的笔记，作者只对一些步骤进行了简单的推导。具体内容请参考：

https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

https://www.bilibili.com/video/BV1b541197HX?share_source=copy_web

参数重整化

若希望从高斯分布 $N(μ,σ^2)$ 中采样，可以先从标准分布 $N (0, 1)$ 采样出 $z$ ，再得到 $σ * z + μ$ 。这样做的好处是将随机性转移到了 $z$ 这个常量上，而 $σ$ 和 $μ$ 则当做放射变换网络的一部分。

前向扩散过程

从真实数据中采样一个数据点 $x_0$ ，满足分布 $x_0 \sim q(x)$ 。让我们定义一个前向传播过程，在该过程中我们通过T步不断地向样本点中添加小量的高斯噪声，生成了一个噪声样本序列 $x_1,x_2,\dots,x_T$ 。步长的大小是通过一个方差集合 $\{\beta_t∈(0,1)\}^t_{t=1}$ 控制。
该过程是一个马尔可夫链过程

$q(x_t|x_{t-1})=\mathcal {N}(x_t;\sqrt {1-\beta_t} x_{t-1},\beta_t I)\\ q(x_{1:T}|x_0)=\prod^T_{t=1} q(x_t|x_{t-1})$
随着步长变大，数据样本 $x_0$ 逐渐失去其可区分的特征。最终当 $T$ 趋于无穷时， $x_T$ 的值是一个各项独立的高斯分布。

我们可以使用参数重整化在任意时间步长 $t$ 来逼近样本 $x_t$ ，假设 $\alpha_t = 1 - \beta_t$ ，且 $\overline {\alpha}_t = \prod^T_{i=1} \alpha_i$
$X_t = \sqrt{\alpha_t}X_{t-1} + \sqrt{1 - \alpha_t}Z_{t-1}$
上述过程是我们从 $q(x_t|x_{t-1})=\mathcal {N}(x_t;\sqrt {1-\beta_t} x_{t-1},\beta_t I)$ 使用参数重整化得到的，同理我们可以从 $q(x_{t-1}|x_{t-2})=\mathcal {N}(x_{t-1};\sqrt {1-\beta_{t-1}} x_{t-2},\beta_{t-1} I)$ 中得到 $X_{t-1}$ 的值。
$X_{t-1}=\sqrt{\alpha_{t-1}}X_{t-2} + \sqrt{1-\alpha_{t-1}}Z_{t-2}$
将 $X_{t-1}$ 的值带入到 $X_t$ 中，可得
$X_t = \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}X_{t-2} + \sqrt{1-\alpha_{t-1}}Z_{t-2}) + \sqrt{1 - \alpha_t}Z_{t-1}\\ = \sqrt{\alpha_t \alpha_{t-1}}X_{t-2} + \sqrt{\alpha_t -\alpha_t \alpha_{t-1}}Z_{t-2} + \sqrt{1-\alpha_t}Z_{t-1}$
其中 $Z_{t-1},Z_{t-2},\dots \sim \mathcal{N}(0,I)$ 。而且，需要注意两个正态分布 $\sim N(μ_1,σ_1)$ 和 $\sim N(μ_2,σ_2)$ 的叠加后的分布 $a X + b Y$ 的均值为 $aμ_1+bμ_2$ ，方差为 $a^2σ_1^2+b^2σ_2^2$ ，所以 $\sqrt{\alpha_t -\alpha_t \alpha_{t-1}}Z_{t-2} + \sqrt{1-\alpha_t}Z_{t-1}$ 可以参数重整化成只含一个随机变量 $Z$ 构成的 $\sqrt{1-\alpha_t \alpha_{t-1}}Z$ 的形式。

则 $X_t$ 可以写为
$X_t = \sqrt{\alpha_t \alpha_{t-1}}X_{t-2} + \sqrt{1-\alpha_t \alpha_{t-1}}\overline{Z}_{t-1}$
因为 $\overline {\alpha}_t = \prod^T_{i=1} \alpha_i$ ， $X_t$ 最终可写为：
$X_t = \sqrt{\overline{\alpha}_t}X_0 + \sqrt{1 - \overline{\alpha}_t}z$
这样就得到了 $q(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\overline{\alpha}_t}x_0, (1 - \overline{\alpha}_t)I)$

通常情况下，在样本加噪时我们可以提供一个大的更新步长，即 $\beta_1 \lt \beta_2 \lt \dots \lt \beta_T$ ，那么则会有 $\overline{\alpha}_1 \gt \dots \gt \overline{\alpha}_T$

逆扩散过程

如果我们反转上述过程，尝试从 $q(X_{t-1}|X_t)$ 中采样，我们将能够从一个高斯噪声输入 $X_T \sim \mathcal{N}(0,I)$ 中重构出真实的样本。（逆过程是从高斯噪声中恢复原始数据）

逆扩散过程也是一个马尔科夫链过程。

需要注意的是，如果 $\beta_t$ 的值足够小，那么 $q(X_{t-1}|X_t)$ 也将是一个高斯分布。但不幸的是，我们无法简单的估计 $q(X_{t-1}|X_t)$ ，因为其估计需要使用到整个数据集。因此，我们需要学习一个模型 $p_θ$ 去逼近这些条件概率以运行这个逆扩散过程。
$p_θ(X_{0:T}) = p(X_T)\prod^T_{t=1}p_θ(X_{t-1}|X_t)\\ p_θ(X_{t-1}|X_t) = \mathcal{N}(X_{t-1};μ_θ(X_t,t),\sum_θ(X_t,t))$

值得注意的是，当给定 $X_0$ 时，这个逆条件概率是易处理的
$q(X_{t-1}|X_t,X_0)=\mathcal N(X_{t-1};\tilde μ(X_t,X_0),\tilde \beta_t I)$
使用贝叶斯规则，我们可以得到
$\begin{aligned} q(X_{t-1}|X_t,X_0) &= \frac{q(X_t,X_{t-1},X_0)}{q(X_t,X_0)}\\ &=\frac{q(X_t,X_{t-1},X_0)}{q(X_{t-1},X_0)}*\frac{q(X_{t-1},X_0)}{q(X_t,X_0)}\\ &=q(X_t|X_{t-1},X_0)*\frac{q(X_{t-1}|X_0)}{q(X_t|X_0)} \end{aligned}$
由于扩散过程也是一个马尔科夫链过程，所以 $q(X_t|X_{t-1},X_0)=q(X_t|X_{t-1})\sim \mathcal N(X_t;\sqrt \alpha_tX_{t-1},\beta_tI)$ ，后面的分式可根据前向扩展过程中的结论得到答案。
$\begin{aligned} q(X_{t-1}|X_t,X_0) &= q(X_t|X_{t-1},X_0)*\frac{q(X_{t-1}|X_0)}{q(X_t|X_0)}\\ &∝exp(-\frac{1}{2}(\frac{(X_t-\sqrt{\alpha_t}X_{t-1})^2}{\beta_t}+\frac{(X_{t-1}-\sqrt{\overline{\alpha}_{t-1}}X_0)^2}{1-\overline{\alpha}_{t-1}}-\frac{(X_t-\sqrt{\overline{\alpha}_t}X_0)^2}{1-\overline{\alpha}_t})\\ &=exp(-\frac{1}{2}((\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}})X_{t-1}^2-(\frac{2\sqrt{\alpha_t}}{\beta_t}X_t+\frac{2\sqrt{\overline{\alpha}_t}}{1-\overline{\alpha}_t}X_0)X_{t-1}+C(X_t,X_0))) \end{aligned}$
其中 $(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}})X_{t-1}^2-(\frac{2\sqrt{\alpha_t}}{\beta_t}X_t+\frac{2\sqrt{\overline{\alpha}_t}}{1-\overline{\alpha}_t}X_0)X_{t-1}$ 可以看作是 $ax^2-bx=a(x-\frac{b}{2a})^2+C$ 。

高斯分布的概率密度函数是
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^-\frac{(x-μ)^2}{2\sigma^2}$
所以（分母没有2是因为已经提出去了）
$a(x-\frac{b}{2a})^2=\frac{(x-\frac{b}{2a})^2}{\frac{1}{a}}=\frac{(x-μ)^2}{\sigma^2}$
即 $q(X_{t-1}|X_t,X_0)=\mathcal{N}(X_{t-1};\tilde{μ}(X_t,X_0),\tilde{\beta}_tI)$ 中的 $\tilde{μ}(X_t,X_0)$ 和 $\tilde{\beta}_t$ 可以分别写为
$\begin{aligned} \tilde{\beta}_t &= \frac{1}{a} \\ &=\frac{1}{\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}}\\ &=\frac{1-\overline{\alpha}_{t-1}}{\alpha_t-\alpha_t\overline{\alpha}_{t-1}+1-\alpha_t}\beta_t\\ &=\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t}\beta_t \end{aligned}$

$\begin{aligned} \tilde{μ}_t(X_t,X_0) &= \frac{b}{2a} \\ &=\frac{2(\frac{\sqrt{\alpha_t}}{\beta_t}X_t+\frac{\sqrt{\overline{\alpha}_t}}{1-\overline{\alpha}_t}X_0)}{2(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}})}\\ &=\frac{\sqrt{\alpha_t}(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_t}X_t+\frac{\sqrt{\overline{\alpha}_{t-1}}\beta_t}{1-\overline{\alpha}_t}X_0 \end{aligned}$

又因为在前向扩散过程中我们得到 $X_t = \sqrt{\overline{\alpha}_t}X_0 + \sqrt{1 - \overline{\alpha}_t}z$ ，则
$X_0=\frac{1}{\sqrt{\overline{\alpha}_t}}(X_t-\sqrt{1-\overline{\alpha}_t}Z_t)$
将 $X_0$ 代入到 $\tilde{μ}(X_t,X_0)$ 中，可得
$\begin{aligned} \tilde{μ}_t(X_t,X_0) &= \frac{\sqrt{\alpha_t}(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_t}X_t+\frac{\sqrt{\overline{\alpha}_{t-1}}\beta_t}{1-\overline{\alpha}_t}\frac{1}{\sqrt{\overline{\alpha}_t}}(X_t-\sqrt{1-\overline{\alpha}_t}Z_t)\\ &=\frac{1}{\sqrt{\alpha_t}}(X_t-\frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}Z_t) \end{aligned}$

目标数据分布的似然函数

我们可以在负对数似然函数的基础上加上一个KL散度，于是就构成了负对数似然的上界了，上界越小，负对数似然自然也就越小，那么对数似然就越大了。
$\begin{aligned} -logp_θ(X_0) &\le -logp_θ(X_0)+D_{KL}(q(X_{1:T}|X_0)||p_θ(X_{1:T}|X_0)) \\ &= -logp_θ(X_0)+E_{X_{1:T}\sim 1(X_{1:T}|X_0)}[log\frac{q(X_{1:T}|X_0)}{p_θ(X_{0:T})/p_θ(X_0)}] \\ &= -logp_θ(X_0)+E_q[log\frac{q(X_{1:T}|X_0)}{p_θ(X_{0:T})}+logp_θ(X_0)] \\ &= E_q[log\frac{q(X_{1:T}|X_0)}{p_θ(X_{0:T})}] \end{aligned}$

$\ \ L_{VLB}=E_{q(X_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_θ(X_{0:T})}]\ge-E_{q(X_0)}logp_θ(X_0)$

进一步可以写出如上公式的交叉熵的上界，接下来，我们可以对交叉熵的上界进行化简。

tips：
$\begin{aligned} q(X_{t-1}|X_t,X_0)=q(X_t|X_{t-1},X_0)\frac{q(X_{t-1}|X_0)}{q(X_t|X_0)}\\=q(X_t|X_{t-1})\frac{q(X_{t-1}|X_0)}{q(X_t|X_0)} \end{aligned}$

$\begin{aligned} L_{VLB} &= E_{q(X_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_θ(X_{0:T})}] \\ &= E_q[log\frac{\prod_{t=1}^Tq(X_t|X_{t-1})}{p_θ(X_T)\prod_{t=1}^Tp_θ(X_{t-1}|X_t)}] \\ &= E_q[-logp_θ(X_T)+\sum_{t=1}^Tlog\frac{q(X_t|X_{t-1})}{p_θ(X_{t-1}|X_t)}] \\ &= E_q[-logp_θ(X_T)+\sum_{t=2}^Tlog\frac{q(X_t|X_{t-1})}{p_θ(X_{t-1}|X_t)}+log\frac{q(X_1|X_0)}{p_θ(X_0|X_1)}] \\ &= E_q[-logp_θ(X_T)+\sum_{t=2}^Tlog(\frac{q(X_{t-1}|X_t,X_0)}{p_θ(X_{t-1}|X_t)}*\frac{q(X_t|X_0)}{q(X_{t-1}|X_0)})+log\frac{q(X_1|X_0)}{p_θ(X_0|X_1)}] \\ &= E_q[-logp_θ(X_T)+\sum_{t=2}^Tlog\frac{q(X_{t-1}|X_t,X_0)}{p_θ(X_{t-1}|X_t)}+\sum_{t=2}^Tlog\frac{q(X_t|X_0)}{q(X_{t-1}|X_0)}+log\frac{q(X_1|X_0)}{p_θ(X_0|X_1)}] \\ &= E_q[-logp_θ(X_T)+\sum_{t=2}^Tlog\frac{q(X_{t-1}|X_t,X_0)}{p_θ(X_{t-1}|X_t)}+log\frac{q(X_T|X_0)}{q(X_1|X_0)}+log\frac{q(X_1|X_0)}{p_θ(X_0|X_1)}] \\ &=E_q[log\frac{q(X_T|X_0)}{p_θ(X_T)}+\sum_{t=1}^T\frac{q(X_{t-1}|X_t,X_0)}{p_θ(X_{t-1}|X_t)}-logp_θ(X_0|X_1)] \\ &= E_q[D_{KL}(q(X_T|X_0)||p_θ(X_T))+\sum_{t=2}^TD_{KL}(q(x_{t-1}|X_t,X_0)||p_θ(X_{t-1}|X_t))- logp_θ(X_0|X_1)] \end{aligned}$
那么就可以得到
$\begin{aligned} L_{VLB} &= L_T+L_{T-1}+\dots+L_0 \\ where L_T &= D_{KL}(q(X_T|X_0)||p_θ(X_T)) \\ L_t &= D_{KL}(q(X_{t}|X_{t+1},X_0)||p_θ(X_{t}|X_{t+1})) for\ 1 \le t \le T-1 \\ L_0 &= - logp_θ(X_0|X_1) \end{aligned}$

损失函数

代码后续给出

IMPORT_UTIL

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Diffusion Model扩散模型原理

本文并非原创，只是个人的学习的笔记，作者只对一些步骤进行了简单的推导。具体内容请参考：https://lilianweng.github.io/posts/2021-07-11-diffusion-models/https://www.bilibili.com/video/BV1b541197HX?share_source=copy_web若希望从高斯分布N(μ,σ2)N(μ,σ^2)N(μ,σ2)中采样，可以先从标准分布N(0,1)N(0,1)N(0,1)采样出zzz，再得到σ∗z+μσ*z+μσ∗z+μ
复制链接

扫一扫