SMLD 的随机微分方程（SDE）：从离散噪声到连续扩散

最新推荐文章于 2025-05-07 09:58:42 发布

阿正的梦工坊

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量757

点赞数 27

分类专栏： Deep Learning 文章标签：概率论人工智能微分方程数学机器学习

本文链接：https://blog.csdn.net/shizheng_Li/article/details/146133879

版权

Deep Learning 专栏收录该内容

290 篇文章

订阅专栏

SMLD 的随机微分方程（SDE）：从离散噪声到连续扩散

在扩散模型（Diffusion Models）的大家庭中，Score-Matching Langevin Dynamics（SMLD）是一种基于分数匹配的生成方法，与 DDPM（Denoising Diffusion Probabilistic Models）并驾齐驱。虽然 SMLD 没有显式的前向扩散步骤，但它可以通过噪声尺度的递增构造一个隐含的扩散过程，并用随机微分方程（SDE）描述其前向和逆向采样。本篇博客将面向深度学习研究者，介绍 SMLD 的 SDE 表示，包括前向和逆向过程的推导及其与 DDPM 的联系。

SMLD 的前向过程：隐含的扩散

与 DDPM 不同，SMLD 没有明确定义从数据到噪声的前向扩散步骤。它的训练基于一系列噪声水平 ( $\sigma_1, \sigma_2, \dots, \sigma_N$ )（通常递增），通过分数匹配学习数据分布。但我们可以假设一个隐含的扩散过程，形式为：
$x_i = x_{i-1} + \sqrt{\sigma_i^2 - \sigma_{i-1}^2} z_{i-1}, \quad z_{i-1} \sim \mathcal{N}(0, I) \quad(4.18)$

( $x_0$ )：原始数据。
( $\sigma_i^2$ )：第 ( $i$ ) 步的噪声方差。
( $\sigma_i^2 - \sigma_{i-1}^2$ )：噪声方差的增量。

方差验证

假设 ( $x_{i-1}$ ) 的方差为 ( $\sigma_{i-1}^2$ )：
$\text{Var}(x_i) = \text{Var}(x_{i-1} + \sqrt{\sigma_i^2 - \sigma_{i-1}^2} z_{i-1})$
由于 ( $z_{i-1}$ ) 是独立的高斯噪声：
$\text{Var}(x_i) = \text{Var}(x_{i-1}) + \text{Var}(\sqrt{\sigma_i^2 - \sigma_{i-1}^2} z_{i-1}) = \sigma_{i-1}^2 + (\sigma_i^2 - \sigma_{i-1}^2) = \sigma_i^2$
这表明，公式 (4.18) 能逐步增加噪声方差，最终达到 ( $\sigma_N^2$ )。

前向 SDE

将离散过程连续化，假设 ( $\sigma_i = \sigma\left(\frac{i}{N}\right)$ ) 是连续时间函数 ( $\sigma(t)$ ) 的采样，( $\in [0, 1]$ )。离散更新为：
$\Delta t) = x(t) + \sqrt{\sigma(t + \Delta t)^2 - \sigma(t)^2} z(t)$
近似 (下文有解释)：
$\sigma(t + \Delta t)^2 - \sigma(t)^2 \approx \frac{d[\sigma(t)^2]}{dt} \Delta t$
所以：
$\Delta t) \approx x(t) + \sqrt{\frac{d[\sigma(t)^2]}{dt} \Delta t} z(t)$
当 ( $\Delta t \to 0$ )：
$\frac{x(t + \Delta t) - x(t)}{\Delta t} \approx \sqrt{\frac{d[\sigma(t)^2]}{dt}} \frac{z(t)}{\sqrt{\Delta t}}$
因为 ( $\frac{z(t)}{\sqrt{\Delta t}} = \frac{dw(t)}{\Delta t}$ )，极限下：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$
定理 4.3：SMLD 的前向采样 SDE 为：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$

( $f (x, t) = 0$ )：无漂移项，仅靠噪声驱动。
( $\sqrt{\frac{d[\sigma(t)^2]}{dt}}$ )：扩散项，控制噪声强度。

SMLD 的逆向过程：去噪采样

逆向过程从噪声 ( $x (1)$ )（方差 ( $\sigma_N^2$ )）回到数据 ( $x (0)$ )。根据逆向扩散的通用形式：
$g(t)^2 \nabla_x \log p_t(x)] dt + g(t) \, dw$
代入 SMLD 的前向参数：

( $f (x, t) = 0$ )
( $\sqrt{\frac{d[\sigma(t)^2]}{dt}}$ )

得到：
$\left[ 0 - \left( \sqrt{\frac{d[\sigma(t)^2]}{dt}} \right)^2 \nabla_x \log p_t(x) \right] dt + \sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$
即：
$-\frac{d[\sigma(t)^2]}{dt} \nabla_x \log p_t(x) \, dt + \sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$
定理 4.4：SMLD 的逆向采样 SDE 为：
$-\frac{d[\sigma(t)^2]}{dt} \nabla_x \log p_t(x) \, dt + \sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$

离散验证

令 ( $\alpha(t) = \frac{d[\sigma(t)^2]}{dt}$ )，逆向 SDE 为：
$\Delta t) = -\alpha(t) \Delta t \nabla_x \log p_t(x) + \sqrt{\alpha(t) \Delta t} z(t)$
时间反向：
$\Delta t) = x(t) + \alpha(t) \Delta t \nabla_x \log p_t(x) + \sqrt{\alpha(t) \Delta t} z(t)$
映射到离散：

( $x(t) = x_i$ )
( $\Delta t) = x_{i-1}$ )
( $\alpha(t) \Delta t = \sigma_i^2 - \sigma_{i-1}^2$ )

则：
$x_{i-1} = x_i + (\sigma_i^2 - \sigma_{i-1}^2) \nabla_x \log p_i(x_i) + \sqrt{\sigma_i^2 - \sigma_{i-1}^2} z_i$
这与 SMLD 的逆向迭代一致。

SMLD 与 DDPM 的对比

DDPM（VP SDE）：
- 前向：( $-\frac{\beta(t)}{2} x \, dt + \sqrt{\beta(t)} \, dw$ )
- 逆向：( $-\beta(t) \left[ \frac{x}{2} + \nabla_x \log p_t(x) \right] dt + \sqrt{\beta(t)} \, dw$ )
- 特点：方差保持（Variance Preserving），有漂移项控制信号衰减。
SMLD（VE SDE）：
- 前向：( $\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$ )
- 逆向：( $-\frac{d[\sigma(t)^2]}{dt} \nabla_x \log p_t(x) \, dt + \sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$ )
- 特点：方差爆炸（Variance Exploding），无漂移，仅靠噪声累积。

等价性

Kawar et al. [https://arxiv.org/abs/2201.11793] 指出，VP 和 VE 的逆向推断过程在适当条件下等价。这意味着，在图像生成或修复等任务中，选择 VP（DDPM）还是 VE（SMLD）影响不大，但超参数（如 ( $\beta(t)$ ) 或 ( $\sigma(t)$ )）的选择会影响训练效果。

意义与应用

连续视角
SMLD 的 SDE 表示将离散噪声添加过程升华为连续扩散，揭示其随机动态本质。
分数函数驱动
逆向 SDE 中，( $\nabla_x \log p_t(x)$ )（分数函数）引导去噪，训练时用 ( $s_\theta(x_i)$ ) 近似。
灵活采样
可以用 SDE 求解器模拟逆向轨迹，也可沿用离散迭代。

总结

SMLD 的前向 SDE：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$
逆向 SDE：
$-\frac{d[\sigma(t)^2]}{dt} \nabla_x \log p_t(x) \, dt + \sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$
分别描述了从数据到噪声的隐含扩散和从噪声到数据的去噪过程。与 DDPM 的 VP SDE 相比，SMLD 的 VE SDE 更强调方差的爆炸式增长。理解这些 SDE 为研究扩散模型的理论和优化提供了新视角，下一篇文章中，我们可以用 Python 模拟 SMLD 的 SDE 轨迹，敬请期待！

注：推导中简化了部分近似，注重直观理解。

为什么 ( $\sigma(t + \Delta t)^2 - \sigma(t)^2 \approx \frac{d[\sigma(t)^2]}{dt} \Delta t$ )？

推导近似

这个近似来源于微积分中的导数定义和泰勒展开。让我们一步步拆解。

1. 导数的定义

导数描述函数随自变量的变化率。对于函数 ( $\sigma(t)^2$ )，其导数定义为：
$\frac{d[\sigma(t)^2]}{dt} = \lim_{\Delta t \to 0} \frac{\sigma(t + \Delta t)^2 - \sigma(t)^2}{\Delta t}$
这意味着：
$\sigma(t + \Delta t)^2 - \sigma(t)^2 = \frac{d[\sigma(t)^2]}{dt} \Delta t + \text{高阶余项}$
当 ( $\Delta t$ ) 很小时，高阶余项（如 ( $\Delta t^2$ ) 项）可以忽略，近似为：
$\sigma(t + \Delta t)^2 - \sigma(t)^2 \approx \frac{d[\sigma(t)^2]}{dt} \Delta t$

2. 泰勒展开的直观解释

更具体地，用泰勒展开表示 ( $\sigma(t + \Delta t)^2$ )：
$\sigma(t + \Delta t)^2 = \sigma(t)^2 + \frac{d[\sigma(t)^2]}{dt} \Delta t + \frac{1}{2} \frac{d^2[\sigma(t)^2]}{dt^2} (\Delta t)^2 + \cdots$
两边减去 ( $\sigma(t)^2$ )：
$\sigma(t + \Delta t)^2 - \sigma(t)^2 = \frac{d[\sigma(t)^2]}{dt} \Delta t + \frac{1}{2} \frac{d^2[\sigma(t)^2]}{dt^2} (\Delta t)^2 + \text{更高阶项}$
当 ( $\Delta t \to 0$ )（即 ( $\to \infty$ )），(( $\Delta t)^2$ ) 及更高阶项变得非常小，可以忽略，只保留一阶项：
$\sigma(t + \Delta t)^2 - \sigma(t)^2 \approx \frac{d[\sigma(t)^2]}{dt} \Delta t$

3. 物理直觉

( $\sigma(t)^2$ ) 是噪声方差随时间 ( $t$ ) 的函数。
( $\sigma(t + \Delta t)^2 - \sigma(t)^2$ ) 是时间间隔 ( $\Delta t$ ) 内方差的增量。
( $\frac{d[\sigma(t)^2]}{dt}$ ) 是方差的变化率，乘以 ( $\Delta t$ ) 自然近似于增量。

就像速度 ( $\frac{dx}{dt}$ ) 乘以时间 ( $\Delta t$ ) 近似位移 ( $\Delta x = v \Delta t$ )，这里 ( $\frac{d[\sigma(t)^2]}{dt} \Delta t$ ) 近似方差的变化。

注意事项

高阶项的影响
如果 ( $\Delta t$ ) 不够小，二阶导数 ( $\frac{d^2[\sigma(t)^2]}{dt^2}$ ) 的贡献可能显著，近似会有偏差。
( $\sigma(t)$ ) 的假设
( $\sigma(t)$ ) 需光滑可导，确保导数定义良好。

补充解释

布朗运动增量的正确定义

布朗运动 ( $W (t)$ ) 的增量定义为：
$\Delta t) - W(t) \sim \mathcal{N}(0, \Delta t)$
其微分形式为：
$\Delta t) - W(t)$
方差为 ( $\Delta t$ )，标准差为 ( $\sqrt{\Delta t}$ )。如果用标准正态分布 ( $\sim \mathcal{N}(0, I)$ ) 表示增量：
$\Delta t) - W(t) = \sqrt{\Delta t} z(t)$
因为：
$\text{Var}(\sqrt{\Delta t} z(t)) = (\sqrt{\Delta t})^2 \cdot \text{Var}(z(t)) = \Delta t \cdot 1 = \Delta t$
所以：
$\sqrt{\Delta t} z(t)$
这意味着：
$\frac{dW(t)}{\Delta t} = \frac{\sqrt{\Delta t} z(t)}{\Delta t} = \frac{z(t)}{\sqrt{\Delta t}}$

回到推导

回到：
$\frac{x(t + \Delta t) - x(t)}{\Delta t} = \sqrt{\frac{d[\sigma(t)^2]}{dt}} \frac{z(t)}{\sqrt{\Delta t}}$
右边正是：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \frac{z(t)}{\sqrt{\Delta t}} = \sqrt{\frac{d[\sigma(t)^2]}{dt}} \cdot \frac{dW(t)}{\Delta t}$
当 ( $\Delta t \to 0$ )：
$\frac{x(t + \Delta t) - x(t)}{\Delta t} \to \frac{dx}{dt}, \quad \frac{dW(t)}{\Delta t} \to \frac{dW}{dt}$
于是：
$\frac{dx}{dt} = \sqrt{\frac{d[\sigma(t)^2]}{dt}} \frac{dW}{dt}$
微分形式：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dW$
注意，这里 ( $d W$ ) 是微分符号，习惯上写作 ( $d w$ )，所以：
$\sqrt{\frac{d[\sigma(t)^2]}{dt}} \, dw$