『扩散模型』一篇文章入门随机微分方程SDE

一只楚楚猫

已于 2025-03-16 20:57:02 修改

阅读量2.2k

点赞数 16

分类专栏：深度学习扩散模型机器学习文章标签：机器学习扩散模型 SDE

于 2024-10-20 12:59:30 首次发布

本文链接：https://blog.csdn.net/julac/article/details/143084668

版权

文章目录

随机微分方程SDE
参考文献

随机微分方程SDE

笔者建议，学完DDPM再来看SDE的作用和推导过程

标准布朗运动

在学习随机微分方程之前，我们先来看一下什么是标准布朗运动
假设有一个一维的直线，有个小人从原点出发，每次随机地选择向左走1格或者向右走1格，且向左走和向右走的两个选项，被选择的概率相等 $\rightarrow$ 用 $S_t$ 代表小人离原点的距离， $t$ 代表代表选择的次数，如果选择的次数越多，那么 $S_t$ 将会逐渐服从一个均值为0、方差为 $t$ 的正态分布
布朗运动 $W (t)$ 是期望为0、方差为 $t$ 的正态分布 $\Leftrightarrow$ $W_t\sim \mathcal{N}(0,t)$ $\Rightarrow$ $W_{t+\Delta t}-W_t\sim \mathcal{N}(0,\Delta t)$ ，当 $\Delta t\rightarrow 0$ 时， $dw=\sqrt{dt}\varepsilon$ （重参数技巧）

SDE加噪

在DDPM中，扩散过程被划分为固定的T步 $\Rightarrow$ DDPM=拆楼+建楼 $\Rightarrow$ “拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤 $\Rightarrow$ 可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述，即 $d\boldsymbol{x}=\boldsymbol{f}_t(\boldsymbol{x})dt+g_td\boldsymbol{w_t}$ ，其中 $f_t(x_t)$ 是漂移项，描述数据的确定性演化； $g_t$ 是扩散项，描述的是噪声的扩散程度； $dw_t$ 是维纳运动（布朗运动）的微小增量，表示随机波动
随机微分方程： $d x =$ 确定的变化 $+$ 随机的变化，其中随机的变化代表着随机性
随机微分方程描述了系统从 $t$ 时刻到 $t+\Delta t$ 时刻的变化
我们可以将随机微分方程看成是 $\boldsymbol{x}_{t+\Delta t}-\boldsymbol{x}_t=\boldsymbol{f}_t(\boldsymbol{x}_t)\Delta t+g_t\sqrt{\Delta t}\boldsymbol{\varepsilon},\quad\boldsymbol{\varepsilon}\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$ 在 $\Delta t\rightarrow 0$ 时的极限 $\Rightarrow$ 如果建楼要1天，那么拆楼就是 $x$ 从 $t = 0$ 到 $t = 1$ 时刻的变化
越小的步数 $\Delta t$ 意味着对原始噪声越好的近似，如果 $\Delta t=0.001$ ，对应着 $T = 1000$ ；如果 $\Delta t=0.01$ ，则对应 $T = 100$ （总时间步数 $T$ 是模拟的总时间跨度被步长 $\Delta t$ 划分的次数 $T=\frac{t_{\max}}{\Delta t}$ ） $\Rightarrow$ 引入SDE的本质好处是“将理论分析和代码实现分离开来”
DDPM的加噪过程本质上是一个SDE，而SDE本质上描述的是微小时间变化下系统状态的变化

DDPM的加噪： $x_{t+1}=\sqrt{1-\beta_t}x_t+\sqrt{\beta_t}\epsilon$
SDE的加噪： $d\boldsymbol{x}=\boldsymbol{f}_t(\boldsymbol{x})dt+g_td\boldsymbol{w_t}$

在这里，笔者介绍一下将DDPM加噪公式映射到SDE加噪公式的推导过程：

重写DDPM加噪公式： $x_{t+1}-x_t=(\sqrt{1-\beta_t}-1)x_t+\sqrt{\beta_t}\epsilon$ $\Rightarrow$ $\sqrt{1-\beta_t}\approx1-\frac{\beta_t}2$ $\Rightarrow$ 将DDPM加噪公式重新表示为一个确定项和随机噪声项的和： $x_{t+1}-x_{t}\approx-\frac{\beta_{t}}{2}x_{t}+\sqrt{\beta_{t}}\epsilon$
在这里，使用泰勒展开得到 $\sqrt{1-\beta_t}\approx1-\frac{\beta_t}2$
先来介绍一下泰勒展开：如果 $f (x)$ 在 $x = a$ 处是可微的，则它的泰勒展开可以写为 $f(x)\approx f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\ldots$ ，其中 $f^{'} (a)$ 和 $f^{''} (a)$ 分别是 $f (x)$ 在 $a$ 处的一阶导数和二阶导数；在泰勒展开中，若函数依赖多个变量，需要对每个变量分别进行展开
$f(\beta_t)=\sqrt{1-\beta_t}$ 在 $\beta_t=0$ 处展开 $\Rightarrow$ 零阶项： $f(0)=\sqrt{1-0}=1$ ；一阶导数： $f'(\beta_t)=\frac{d}{d\beta_t}\sqrt{1-\beta_t}=\frac{-1}{2\sqrt{1-\beta_t}}$ ，在 $\beta_t=0$ 处 $f'(0)=\frac{-1}{2\sqrt{1-0}}=-\frac{1}{2}$

最低0.47元/天解锁文章