【理论推导】随机微分方程(SDE)视角下的Diffusion Model与Score-based Model

原创已于 2023-04-04 10:48:16 修改 · 1w 阅读

80 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2023-03-31 15:48:25 首次发布

生成模型专栏收录该内容

5 篇文章

订阅专栏

文章介绍了扩散模型DDPM(去噪扩散潜变量模型)与随机微分方程(SDE)的关联，展示了DDPM如何通过离散迭代逼近SDE的形式。在DDPM中，正向过程是逐步添加噪声，逆过程则通过SDE描述。NCSN(噪声对比估计网络)对应的是VarianceExplodingSDE，而DDPM对应VariancePreservingSDE。两者都利用SDE来建模数据生成的过程，DDPM的去噪器可以通过祖先采样解决SDE方程，而NCSN则依赖Langevin动力学进行迭代优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SDE与DDPM

以 DDPM 为例，DDPM的通项公式为
$x_t \sim \mathcal N(\sqrt{\overline{\alpha}_t}x_0, (1-\overline{\alpha}_t) I)$
当我们固定 $t$ 的取值时， $x_t$ 是定义在样本空间上的函数，即为一随机变量，当我们固定 $x$ 的随机性时，即为关于变量 $t$ 的一个函数，因此 $x_t$ 是一随机过程，而对于一组确定的 ${x_t\}_{t=0}^T$ ，称为随机过程的一个实现，或是一条轨迹/轨道，而随机过程可以使用随机微分方程(Stochastic Differential Equation)进行描述

SDE定义为
$dX_t = b(t,X_t)dt + \sigma(t,X_t)dB_t$
其中 $B_t$ 表示布朗运动，此方程的解称为伊藤(Itô)过程或是扩散过程。如果我们将 DDPM的迭代式从离散扩展到连续区间，即 $x_t\rightarrow x_{t+\Delta t}\;\;(\Delta t\rightarrow 0)$ ，即可得到SDE形式的扩散过程，论文中表示为
$d x = f (x, t) d t + g (t) d w$
其中 $w$ 表示一个标准布朗运动， $f(\cdot,t)$ 称作是漂移系数 (drift coefficient)，描述了确定性的变化过程， $g(\cdot)$ 称作是扩散系数 (diffusion coefficient)，描述了不确定的变化过程

SDE视角下的生成模型

SDE的离散形式表示如下所示
$x_{t+\Delta_t}-x_t = f(x,t)\Delta t + g(t)\sqrt{\Delta t} \varepsilon$
其中 $\varepsilon \sim \mathcal N(0,I)$ ，因此有条件概率分布
$x_{t+\Delta_t}|x_t \sim \mathcal N(x_t+f(x_t,t)\Delta t, g^2(t)\Delta t I)$
考虑逆过程 $x_t|x_{t+\Delta t}$ ，有
$\begin{align} p(x_t|x_{t+\Delta t}) &= \frac{p(x_{t+\Delta t}|x_t)p(x_t)}{p(x_{t+\Delta t})} \nonumber \\&= p(x_{t+\Delta t}|x_t)\exp(\log p(x_t)-\log p(x_{t+\Delta t})) \nonumber \\&\approx p(x_{t+\Delta t}|x_t)\exp \{ - (x_{t+\Delta t}-x_t)\triangledown_{x_t} \log p(x_t)-\Delta t \frac{\partial }{\partial t}\log p(x_{t})\} \nonumber \\&\propto \exp \{-\frac{||x_{t+\Delta t}-x_t - f(x_t,t)\Delta t||_2^2}{2g^2(t)\Delta t} - (x_{t+\Delta t} - x_t)\triangledown_{x_t}\log p(x_t)- \Delta t \frac{\partial }{\partial t}\log p(x_t)\} \nonumber \\&= \exp \left\{ -\frac{1}{2g^2(t)\Delta t}||(x_{t+\Delta t}-x_t)-(f(x_t,t)-g^2(t)\triangledown_{x_t}\log p(x_t))\Delta t||_2^2 -\Delta t \frac{\partial }{\partial t}\log p(x_t) - \frac{f^2(x_t,t)\Delta t}{2g^2(t)} + \frac{(f(x_t,t)-g^2(t)\triangledown_{x_t}\log p(x_t))^2\Delta t}{2g^2(t)} \right\} \nonumber \\&\overset{\Delta t\rightarrow 0}{=} \exp \left\{ -\frac{1}{2g^2(t+\Delta t)\Delta t}||(x_{t+\Delta t}-x_t)-(f(x_{t+\Delta t},t+\Delta t)-g^2(t+\Delta t)\triangledown_{x_{t+\Delta t}}\log p(x_{t+\Delta t}))\Delta t||_2^2 \right \} \nonumber \end{align}$

因此， $x_t|x_{t+\Delta t}$ 服从均值方差如下的高斯分布
$\mu = x_{t+\Delta t}-(f(x_{t+\Delta t},t+\Delta t)-g^2(t+\Delta t)\triangledown_{x_{t+\Delta t}}\log p(x_{t+\Delta t}))\Delta t \\\sigma^2 = g^2(t+\Delta t)\Delta t$
因此，有SDE表示逆过程离散形式与连续形式如下所示
$\begin{align} x_{t+\Delta t}-x_t &= (f(x_{t+\Delta t},t+\Delta t)-g^2(t+\Delta t)\triangledown_{x_{t+\Delta t}}\log p(x_{t+\Delta t}))\Delta t + g(t+\Delta t)\sqrt{\Delta t}\varepsilon \\dx &= [f(x,t)-g^2(t)\triangledown_{x_t}\log p(x_t)]+g(t)dw \end{align}$
在这里插入图片描述

考虑 NCSN 与 DDPM，两种形式均可以统一到SDE的理论表示形式下面，分别称为 VE-SDE (Variance Exploding) 与 VP-SDE (Variance Preserving)，对应 NCSN 与 DDPM

对于NCSN，正向过程（加噪声）如下所示
$x_t = x_0 + \sigma_t\varepsilon \\ x_{t+1} = x_t+\sqrt{\sigma_{t+1}^2 - \sigma_t^2}\varepsilon$
因此，对应的SDE表示形式中
$f(x_{t},t)=0 \\g(t)= \frac{d}{dt}\sigma_t^2$

对于 DDPM，正向过程（加噪声）如下所示
$x_t = \sqrt{\overline{\alpha}_t}x_0 + \sqrt{1-\overline{\alpha}_t}\varepsilon \\ x_{t+1} = \sqrt{1-\beta_{t+1}}x_t + \sqrt{\beta_{t+1}}\varepsilon$
我们令 $\beta:[0,1]\rightarrow \R$ 代替 $\beta_{t}$ ，满足 $\beta(\frac{i}{T}) = T\beta_i$ ， $\Delta t = \frac{1}{T}$ ，则有
$\begin{align} x_{t+1} &= \sqrt{1-\beta(t+\Delta t)\Delta t}x_t +\sqrt{\beta(t+\Delta t)\Delta t}\varepsilon \\&\overset{\Delta t\rightarrow 0}{=}(1-\frac{1}{2}\beta(t)\Delta t)x_t+\sqrt{\beta(t)}\sqrt{\Delta t}\varepsilon \end{align}$
因此，对应的SDE表现形式中，有
$f(x_{t},t)=-\frac{1}{2}\beta(t)x_t \\g(t)= \sqrt{\beta(t)}$

当我们希望 $t\rightarrow T$ 时，图像为纯粹的噪声图像，那么 $\sigma_t\rightarrow \infty$ ，但 $\overline{\alpha}_t \rightarrow 0$ 即可，因此分别称作是 VE-SDE 和 VP-SDE

DDPM Denoiser $\epsilon_\theta(x_t,t)$ 与 NCSN Estimator $s_\theta(x_t,t)$ ：在 DDPM 正向过程中，有 $x_t \sim \mathcal N(\sqrt{\overline \alpha}_t x_0, (1-\overline \alpha_t)I)$ ，代入 $s_\theta(x_t,t) = \triangledown_{x_t} \log p(x_t)$ ，可以得到
$s_\theta(x_t,t) = -\frac{x_t-\sqrt{\overline \alpha}_t x_0}{1-\overline \alpha_t} = -\frac{1}{\sqrt{1-\overline \alpha_t}} \epsilon_\theta(x_t,t)$

PC Sampling

最后，从算法实现的角度来回顾一下 DDPM 和 NCSN，DDPM基于的假设是 Markov 假设，假定不同时间的采样之间服从条件概率分布，因此 DDPM 采用称作是祖先采样(Ancestral Sampling)的方式去求解 SDE 方程，给出的算法如下所示
在这里插入图片描述
而 NCSN 依赖于 Langevin Dynamics 进行同一噪声分布下的迭代优化，对于不同的噪声大小，得到的采样之间并没有进行任何的依赖关系，其采样方式如下所示

前者可以看作是对于 SDE 方程的离散形式求解，称为Predictor，后者可以看作是进一步的优化过程，称为 Corrector，作者结合这两部分，给出了 Predictor-Corrector Sampling Method
在这里插入图片描述