基于SDE的分数生成模型

最新推荐文章于 2024-08-09 15:31:03 发布

篝火者2312

最新推荐文章于 2024-08-09 15:31:03 发布

阅读量606

点赞数 6

分类专栏：机器学习、人工智能笔记文章标签：深度学习人工智能 stablediffusion stable diffusion

本文链接：https://blog.csdn.net/sdksdf/article/details/139375049

版权

机器学习、人工智能同时被 2 个专栏收录

57 篇文章 19 订阅

订阅专栏

笔记

56 篇文章 4 订阅

订阅专栏

1、前言

本篇文章，将从SDE（随机微分方程）视角，去解释前两个模型（DDPM、NCSN），将它们统一起来。并从SDE视角上，提供一个具有更高似然的新模型。与此同时，提供各种新式采样方法。

参考论文：

①Score-Based Generative Modeling through Stochastic Differential Equations (arxiv.org)

②Tutorial on Diffusion Models for Imaging and Vision (arxiv.org)（这篇论文有些错误，请注意甄别）

参考代码：GitHub - yang-song/score_sde: Official code for Score-Based Generative Modeling through Stochastic Differential Equations (ICLR 2021, Oral)

视频：基于SDE的分数生成模型原理解析-哔哩哔哩

2、DDPM、NCSN回顾及统一

2.1、NCSN

NCSN，我沿用我之前那篇文章的符号噪声条件分数网络

其损失函数为
$L=\frac{1}{S}\sum\limits_{i=1}^S\lambda_i\frac{1}{2}\mathbb{E}_{P_{data}(x),\tilde x\sim N(x,\sigma_i^2I)}\left[||s_\theta(x+\sigma_i z,\sigma_i)+\frac{\tilde x_i -x}{\sigma_i^2}||_2^2\right]$
其中S表示噪声量级的个数， $\lambda_i$ 是缩放系数，一般取 $\sigma_i^2$ ，而 $\frac{\tilde x_i -x}{\sigma_i^2}$ 由 $q_{\sigma_i}(\tilde x|x)$ 变化而来（ $\sigma_i$ 表示的是加噪强度为 $\sigma_i$ ）。Ps：论文将 $q_{\sigma}(\tilde x|x)$ 称为扰动核

同时在NCSN里面，我们曾得到 $\frac{\tilde x_i -x}{\sigma_i^2}=\frac{z}{\sigma_i}$ ，于是便有
$L=\frac{1}{S}\sum\limits_{i=1}^S\lambda_i\frac{1}{2}\mathbb{E}_{P_{data}(x),z\sim N(0,I)}\left[||s_\theta(x+\sigma_i z,\sigma_i)+\frac{z}{\sigma_i}||_2^2\right]\tag{1}$
此时 $s_{\theta}$ 预测的其实就是 $-\frac{z}{\sigma_i}$

Eq.(1)训练完成之后，就可以进行采样生成（郎之万动力学采样）：
$x_{t+1}=x_t+\alpha \nabla_x\log P(x_t)+\sqrt{2\alpha}z_t$
其中 $\nabla_x\log P(x_t)\approx s_\theta$ ，也就是采样生成的时候用神经网络代替里面的分数函数 $\nabla_x\log P(x_t)$

值得注意的是，其实叫NCSN不准确，NCSN对应的是用 $q(\tilde x|x)$ 加噪，来去避免 $P (x)$ 无法计算的问题。其实还存在其他的方法。如果单纯的从模型上来看，它们都是分数的，并且采样方法都是郎之万动力采样，所以它们有一个共同的名字，称为SMLD（Score-Matching Langevin Dynamics）。只是说NCSN更为常用。本篇文章，我用NCSN指代SMLD了（毕竟我上篇文章只讲了NCSN）

2.2、DDPM

Diffusion扩散模型原理

加噪过程表示为 $q(x_i|x_{i-1})=\mathcal{N}(x_i|\sqrt{1-\beta_i}x_{i-1},\beta_iI)$ ，跳步加噪表示为 $q(x_i|x_0)=\mathcal{N}(x_i|\sqrt{\alpha_i}x_0,(1-\alpha_i)I)$

请注意，在DDPM里面，其实应该是 $q(x_i|x_0)=\mathcal{N}(x_i|\sqrt{\bar\alpha_i}x_0,(1-\bar\alpha_i)I)$ 。该论文把 $\alpha_i$ 等价了DDPM里面的 $\bar \alpha_i$ ，请不要被误导

去噪过程表示为 $P(x_{i-1}|x_i)$ 。重参数化得到采样生成步骤（论文将该方法称为祖先采样）
$x_{i-1}=\frac{1}{\sqrt{1-\beta_i}}\left(x_i-\frac{\beta_i}{\sqrt{1-\alpha_i}}\epsilon_{\theta}(x_i,i)\right)+\sigma_iz\tag{2}$
$\epsilon_\theta(x_i,i)$ 是用神经网络预测的，损失函数为
$L=||\epsilon_i-\epsilon_\theta(x_i,i)||^2$

2.3、两者统一

此时我们注意到Eq.(2)里面的， $\sqrt{1-\alpha_i}$ 是标准差，相当于NCSN里面的 $\sigma_i$ ，而 $\epsilon$ 相当于NCSN里面的z，于是，我们可以令 $-\frac{\epsilon_\theta(x_i,i)}{\sqrt{1-\alpha_i}}=s_\theta(x_i,i)$ ，则Eq.(2)表示为
$x_{i-1}=\frac{1}{\sqrt{1-\beta_i}}\left(x_i+\beta_is_\theta(x_i,i)\right)+\sigma_iz$
里面的 $\sigma_i$ 在这里取为 $\sqrt{\beta_i}$ ，于是得到
$x_{i-1}=\frac{1}{\sqrt{1-\beta_i}}\left(x_i+\beta_is_\theta(x_i,i)\right)+\sqrt{\beta_i}z$
我们不难看到里面其实只有 $s_\theta$ 是未知的，因此我们完全可以直接去预测一个 $s_\theta$ 就可以了。所以损失函数就可以写成（可以根据KL散度导出，或者我们直观理解都可以了）
$L=||s_\theta(x_i,i)+\frac{\epsilon_i}{\sqrt{1-\alpha_i}}||^2$
我们知道NCSN里面使用不同尺度的噪声给原始数据加噪；而DDPM里面也是一个不断的加噪过程。我们刚刚又进行了损失函数的转化，此时我们不难发现，DDPM和NCSN可以统一称为分数模型（ $s_{\theta}$ 预测的是分数函数）

$q_{\sigma}(\tilde x|x)$ 表示从初始图像 $x$ 加噪到 $\tilde x$ ，可以写成与DDPM的形式 $q(x_i|x_0)$ ，也就是从 $x_0$ 加噪到 $x_i$

论文将 $q(x_i|x_0)$ 统称为扰动核

3、引入

3.1、微分方程

回忆一下导数
$f'(x)=\lim\limits_{\Delta x \to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}=\frac{df(x)}{dx}$
假设我们现在有这么一个函数
$x(t+\Delta t)=(1-\frac{\beta\Delta t}{2})x(t)$
移项整理得
$\frac{x(t+\Delta t)-x(t)}{\Delta t}=-\frac{\beta}{2}x(t) \overset{\Delta t \to0}{\Longrightarrow} \frac{dx(t)}{dt}=-\frac{\beta}{2}x(t)$
我们称上式为常微分方程（ODE）

微分方程定义：含有未知函数的导数，如 $\frac{dy}{dx}=2x$ 的方程是微分方程。一般的凡是表示未知函数、未知函数的导数与自变量之间的关系的方程，叫做微分方程。未知函数是一元函数的，叫常微分方程；未知函数是多元函数的叫做偏微分方程。微分方程有时也简称方程

3.2、随机微分方程（SDE）

伊藤SDE表达式为
$\mathbb{dx=f(x,t)dt}+g(t)\mathbb{dw}\tag{3}$
$\mathbb{f(\cdot,t)}:\mathbb{R}^d\to\mathbb{R}^d$ 是一个向量函数，一般称为 $x (t)$ 的漂移系数； $g(\cdot):\mathbb{R\to R}$ 是一个标量函数，一般称为 $x (t)$ 的扩散系数。此处为了表达的简便，暂且把扩散系数表示成一维的标量（实际上还存在 $d\times d$ 维的情况）

而 $\mathbb{w}$ 是标准维纳过程（布朗运动），实际上其差分就是一个方差随着时间变化而变化的高斯分布
$\mathbb{dw=}\mathbb{w(t+\Delta t)-w(t)}=\sqrt{\Delta t}z(t)$
其中 $\mathcal{N}(0,1)$ ，所以
$\mathbb{dw}=\sqrt{\Delta t}z(t)=N(0,\Delta t)$
Eq.(3)的解是 $x (t)$ ，也就是一个随着时间变化而变化的x。

4、分数模型与SDE的关系

4.1、加噪过程连续化

①DDPM：

DDPM是一个离散的马尔可夫链，加噪过程是一个线性高斯。

离散意为着时刻t是有限的，而SDE，就是将时刻扩展至无限

我们可以证明，DDPM的加噪过程，可以用伊藤SDE去表示。为什么要用SDE去表示？当我们用SDE表示之后，我们就可以得到连续时间的 $x (t)$ ，也就是随着时间变化而变化的x（对应加噪过程）

下面我们将DDPM的加噪过程转化成伊藤SDE

回忆一下DDPM的加噪表达式 $q(x_{i}|x_{i-1})$
$x_i=\sqrt{1-\beta_i} x_{i-1}+\sqrt{\beta_i}z_{i-1}\tag{4}$

其中 $z_{i-1}$ 服从标准正太分布

Ps：在我之前的文章不是 $z_{i-1}$ ，而是用 $z_i$ （ $z_i$ 无论在什么时刻都是标准正太，所以其实写成什么区别不大）。在这里我用论文的表示方法

对于离散的DDPM，我们有 ${x_i\}_{i=1}^N$ （也就是有N个时刻，在DDPM里面用T表示有T个时刻，这篇论文用N表示有N个时刻）

为了简便，构造一个 $\{\bar\beta_i=N\beta_i\}_{i=1}^N$ ，所以有 $\beta_i=\frac{1}{N}\bar\beta_i$ ，代入Eq.(4)
$x_i=\sqrt{1-\frac{1}{N}\bar\beta_i} x_{i-1}+\sqrt{\frac{1}{N}\bar\beta_i}z_{i-1}\tag{5}$
当 $N\to \infty$ ，构造连续的随机过程 ${x(t)\}_{t=0}^1$ ，其中 $t\in[0,1]$ 。同样的 $\{\bar\beta_i\}_{i=1}^N$ 也变成了 $t\in[0,1]$ 的索引函数 $\beta(t)$ ，其他也是同理， $\frac{1}{N}=\Delta t$ ，令 $x_i=x(\frac{i}{N})=x(t+\Delta t)$ ， $z_i=z(\frac{1}{N})=z(t+\Delta t)$ ，

于是Eq.(5)可表示为
$x(t+\Delta t)=\sqrt{1-\beta(t+\Delta t)\Delta t}x(t)+\sqrt{\beta(t+\Delta t)\Delta t}z(t)\tag{6}$
注意到 $\sqrt{1-\beta(t+\Delta t)\Delta t}$ ，当 $\beta(t+\Delta t)\Delta t\to 0$

我们使用一阶泰勒展开 $\sqrt{1-\beta(t+\Delta t)\Delta t}\approx 1-\frac{1}{2}\beta(t+\Delta t)\Delta t$

代入Eq.(6)，当 $\Delta t \to 0$ ，进一步有
$\begin{aligned}x(t+\Delta t)=&\left(1-\frac{1}{2}\beta(t+\Delta t)\Delta t\right)x(t)+\sqrt{\beta(t+\Delta t)\Delta t}z(t)\\\approx&x(t)-\frac{1}{2}\beta(t)\Delta tx(t)+\sqrt{\beta(t)\Delta t}z(t)\\=&x(t)-\frac{1}{2}\beta(t)x(t)\Delta t+\sqrt{\beta(t)}\sqrt{\Delta t}z(t)\end{aligned}\nonumber$
将 $x (t)$ 移至左侧
$\begin{aligned}&x(t+\Delta t)-x(t)=-\frac{1}{2}\beta(t)x(t)\Delta t+\sqrt{\beta(t)}\sqrt{\Delta t}z(t)\\\Longrightarrow&dx=\underbrace{-\frac{1}{2}\beta(t)x(t)}_{\mathbb{f(x,t)}}dt+\underbrace{\sqrt{\beta(t)}}_{g(t)}dw\end{aligned}\nonumber$
由此，我们便得到了DDPM的SDE表达形式，它被表达成VP SDE

②NCSN：

我们同样也将NCSN的加噪过程写成SDE的表达形式

首先回忆一下NCSN的加噪
$\tilde x = x+\sigma z$
其中 $z$ 服从标准正态分布， $\sigma$ 是噪声强度，在NCSN中，我们是对原始图像x加上不同强度的噪声 $\sigma_i$ ，一共有N个强度噪声 $\{\sigma_i\}_{i=1}^N$ 。

其实这种每次都对原始图像加不同噪声，可以理解和DDPM那般，一点点的加入噪声，每个加噪时刻就对应不同强度的噪声。两者是等价的，稍微想一想就知道了，于是我们可以表达加噪过程为 $q(x_i|x_{i-1})$
$x_i=x_{i-1}+\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1}$
为什么是这样呢？我们不妨证明一下就知道了（证明过程与DDPM类似）

由之前在DDPM里面讲过的正太分布定理，有 $\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1} \sim N(0,\sigma_i^2-\sigma_{i-1}^2)$
$\mathbb{E}[x_i]=\mathbb{E}[x_{i-1}]+\mathbb{E}\left[\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1}\right]=x_{i-1}$

$Var\left[x_i\right]=Var[x_{i-1}]+Var\left[\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1}\right]=\sigma_{i}^2-\sigma_{i-1}^2$

所以有 $q(x_i|x_{i-1})\sim N(x_{i-1},\sigma_{i}^2-\sigma_{i-1}^2)$

由 $q(x_{i-1}|x_{i-2})$ 可得
$x_{i-1}=x_{i-2}+\sqrt{\sigma_{i-1}^2-\sigma_{i-2}^2}z_{i-2}$
结合上面两个式子可得
$\begin{aligned}x_i=&x_{i-2}+\sqrt{\sigma_{i-1}^2-\sigma_{i-2}^2}z_{i-2}+\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1}\\=&x_{i-2}+\sqrt{\sigma_i^2-\sigma^2_{i-2}}z_{i}\end{aligned}\nonumber$
第二个等号的原因是正太分布的可加性
$\sqrt{\sigma_{i-1}^2-\sigma_{i-2}^2}z_{i-2}+\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_{i-1}\sim N(0,(\sigma_i^2-\sigma_{i-1}^2)+(\sigma_{i-1}^2-\sigma_{i-2}^2))=N(0,\sigma_{i}^2-\sigma_{i-2}^2)$
这是对应 $q(x_i|x_{i-2})$ ，也就是 $q(x_i|x_{i-2})\sim N(x_i;x_{i-2},\sigma_{i}^2-\sigma_{i-2}^2)$

以此类推得到 $q(x_i|x_{0})\sim N(x_i;x_{0},\sigma_{i}^2-\sigma_{0}^2)=N(x_i;x_{0},\sigma_{i}^2)$

回忆一下NCSN里面的 $q_{\sigma_i}(\tilde x|x)$ ，可以看到加噪过程完全符合 $q_{\sigma_i}(\tilde x|x)$ 。比如 $q(x_i|x_0)$ ，也完全符合噪声强度为 $\sigma_i$ ，期望为 $x_0$ 的情况（ $\sigma_0=0$ ）。这很容易理解，稍微想一想就明白了。

现在我们开始将其转化为SDE的形式
$\begin{aligned}x(t+\Delta t)=&x(t)+\sqrt{\sigma^2(t+\Delta t)-\sigma^2(t)}z(t)\\=&x(t)+\sqrt{\frac{\sigma^2(t+\Delta t)-\sigma^2(t)}{\Delta t}\Delta t}z(t)\end{aligned}\nonumber$
移项，再把第二项的 $\Delta t$ 提出来
$x(t+\Delta t)-x(t)=\sqrt{\frac{\sigma^2(t+\Delta t)-\sigma^2(t)}{\Delta t}}\sqrt{\Delta t}z(t)$
当 $\Delta t\to 0$ ，则有
$\underbrace{0}_{\mathbb{f(x,t)}}+\underbrace{\sqrt{\frac{d\left[\sigma^2(t)\right]}{dt}}}_{g(t)}\mathbb{dw}$
由此，我们便得到了NCSN的SDE表达式，它被表达为 VE SDE

③sub-VP SDE：

作者在此基础上，又提出了一个新的SDE，称为sub-VP SDE
$\mathbb{dx=\underbrace{-\frac{1}{2}\beta(t)x}_{f(x,t)}dt+\underbrace{\sqrt{\beta(t)\left(1-e^{-2\int_0^t\beta(s)ds}\right)}}_{g(t)}dw}$

4.2、扰动核

有了上述过程DDPM和NCSN的连续化表达，那我们还需要做什么呢？

我们需要求出扩散核，我们注意到模型训练的时候，神经网络的输入是 $x_i$ 和 $i$ （ $x_i$ ）是加噪后的图像， $i$ 是时刻（忘记了的请看第二节）。当扩散到连续之后，神经网络的输入就变成了 $x (t)$ 和 $t$ 。

我们需要计算出连续型的扩散核 $q_{0t}(x(t)|x(0))$ （实际上，论文写的是 $P_{0t}(x(t)|x(0))$ ，我在此直接沿用DDPM和NCSN里面的写法）

由于DDPM和NCSN里面的加噪过程是一个线性高斯加噪。

当时间被无限压缩，就相当于有无限个高斯分布相加，其结果仍然是高斯，因此 $q_{0t}(x(t)|x(0))$ 仍然是高斯

那么该如何求其参数呢？事实上，论文并没有对这一部分进行推导，而是给出了一篇论文里面的公式，然后告诉我们可以依靠这个公式，求出扰动核的期望跟方差。所以我在此处就不推导了。感兴趣的，可以看参考①，这位大佬推导过了。以下，我直接给出结论
$q_{0t}(x(t)|x(0))=\begin{cases}\mathcal{N}\left(x(t);x(0),[\sigma^2(t)-\sigma^2(0)]I\right),\quad (VE\quad SDE) \\\mathcal{N}\left(x(t);x(0)e^{-\frac{1}{2}\int_0^t \beta(s)ds},I-Ie^{-\int_0^t\beta(s)ds}\right),\quad (VP\quad SDE)\\\mathcal{N}\left(x(t);x(0)e^{-\frac{1}{2}\int_0^t\beta(s)ds},\left[1-e^{-\int_0^t\beta(s)ds}\right]^2I\right),\quad(sub-VP\quad SDE)\end{cases}\nonumber$
对于时间t，我们之前提到 $t\in[0,1]$ ，但是，VE SDE在t=0处是不连续的（ $\sigma(0)\neq \sigma(0^{+})$ ）

因此，会构造一个极小的值，使得 $t\in[\epsilon,1]$ ，其中 $\epsilon$ 一般取 $1 e - 5$ 。后面作者经过实验发现，VP SDE和sub-VP SDE也把t的最小值设定为 $\epsilon$ 会获得更好的似然和稳定性，故而它们的t取值范围与VE SDE一样（VP SDE采样生成时 $\epsilon=1e-3$ ）

有了这三个，就可以求出 $x (t)$ ，但仍然有一个问题，里面的 $\sigma(t)、\beta(s)$ ，我们仍然没有说明是什么。在离散的时候，它们对应一个时刻具体的值。而在连续的时候，我们用一个关于时间的表达式去表示
$\begin{cases}\sigma(t)=\sigma_{\min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\\\beta(t)=\bar\beta_{min}+t(\bar\beta_{max}-\bar\beta_{min})\end{cases}\tag{7}$
$\sigma(t)$ 之所以这样取值，是因为 $\{\sigma_i\}_i^{N}$ 是一个等比数列，稍微想一想就明白了；而 $\beta(t)$ 之所以这样取，是因为一般我们的 $\{\beta_i\}_i^{N}$ 是一个等差数列。

把Eq.(7)代入三个SDE和对应的扰动核

VE SDE：
$\mathbb{dx=\sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\frac{\sigma_{max}}{\sigma_{min}}}dw}\\ q_{0t}(x(t)|x(0))=\mathcal{N}\left(x(t);x(0),\sigma_{min}^2\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^{2t}I\right)\nonumber$
SDE里面的导数用到导数法则 $y=a^x\to y'=a^x\ln a$

VP SDE：
$\mathbb{dx=-\frac{1}{2}\left(\bar\beta_{min}+t(\bar\beta_{max}-\bar\beta_{min})\right)xdt+\sqrt{\bar\beta_{min}+t(\bar\beta_{max}-\bar\beta_{min})}dw}\\q_{0t}(x(t)|x(0))=\mathcal{N}\left(x(t);e^{-\frac{1}{4}t^2(\bar\beta_{max}-\bar\beta_{min})-\frac{1}{2}t\bar\beta_{min}}x(0),I-Ie^{-\frac{1}{2}t^2(\bar\beta_{max}-\bar\beta_{min})-t\bar\beta_{min}}\right)\nonumber$
sub-VP SDE：
$\mathbb{dx=-\frac{1}{2}\left(\bar\beta_{min}+t(\bar\beta_{max}-\bar\beta_{min})\right)x}dt+\sqrt{\left(\bar\beta_{min}+t(\bar\beta_{max}-\bar\beta_{min})\right)\left(1-e^{-t^2(\bar\beta_{max}-\bar\beta_{min})-2t\bar\beta_{min} }\right)}dw\\q_{0t}(x(t)|x(0))=\mathcal{N}\left(x(t);e^{-\frac{1}{4}t^2(\bar\beta_{max}-\bar\beta_{min})-\frac{1}{2}t\bar\beta_{min}}x(0),\left[1-e^{-\frac{1}{2}t^2(\bar\beta_{max}-\bar\beta_{min})-t\bar\beta_{min}}\right]^2I\right)\nonumber$

VP SDE、sub-VP SDE用到牛顿-莱布尼兹公式 $\int_a^bf(x)dx=F(b)-F(a)=F(x)|_a^b$ ， $F (x)$ 是 $f (x)$ 的原函数

有了三个连续型的扩散核，我们随机采样一个时刻t，依据扩散核我们就可以得到 $x (t)$ ，然后就可以训练了。

4.3、反向过程连续化

可以训练了，那么现在该如何去采样呢？

这篇论文Reverse-time diffusion equation models表明，扩散过程的反向过程也是一个扩散过程

反向随机微分方程表示为
$\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\nabla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\tag{8}$
其中， $\mathbb{d\bar w}$ 是一个标准的维纳过程，只不过是反向的，时间从T到0；而 $\mathbb{dt}$ 是一个无穷小的负时间步长 $dt=-\Delta t$ ， $\nabla_x\log p_t(x)$ 就是所谓的分数（在NCSN里面讲过，其实训练的时候近似的 $s_\theta$ ）

在这里插入图片描述

因此，只要我们用神经网络估算出 $s_\theta(x(t),t)\approx\nabla_x\log p_t(x)$ 即可得到反向SDE

接下来，我们先证明这个反向SDE与我们之前的采样步骤的联系（本步骤你可以不看，毕竟给定正向过程，反向过程的SDE是唯一确定的，所以按理说我们没必要证明了（原论文其实也没有这一段）。但为了完整，我还是写吧）

①DDPM： $\mathbb{f(x,t)}=-\frac{1}{2}\beta(t)x(t),g(t)=\sqrt{\beta(t)}$
$\begin{aligned}\mathbb{dx}=&\left[\mathbb{f(x,t)}-g(t)^2\nabla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\\=&\left[-\frac{1}{2}\beta(t)x(t)-\beta(t)\nabla_x\log p_t(x)\right]\mathbb{dt}+\sqrt{\beta(t)}\mathbb{d\bar w}\\=&\beta(t)\left[-\frac{1}{2}x(t)-\nabla_x\log p_t(x)\right]\mathbb{dt}+\sqrt{\beta(t)}\mathbb{d\bar w}\end{aligned}\nonumber$
即
$x(t-\Delta t)-x(t)=\beta(t)\left[\frac{1}{2}x(t)+\nabla_x\log p_t(x)\right]\mathbb{\Delta t}+\sqrt{\beta(t)\Delta t}z(t)\\\Longrightarrow x(t-\Delta t) =x(t)+\beta(t)\left[\frac{1}{2}x(t)+\nabla_x\log p_t(x)\right]\mathbb{\Delta t}+\sqrt{\beta(t)\Delta t}z(t)\nonumber$
进一步把等式右侧的 $x (t)$ 结合
$\begin{aligned}x(t-\Delta t)=&\left[1+\frac{1}{2}\beta(t)\Delta t\right]x(t)+\beta(t)\Delta t\nabla_x\log p_t(x)+\sqrt{\beta(t)\Delta t}z(t)\\\approx&\left[1+\frac{1}{2}\beta(t)\Delta t\right]x(t)+\beta(t)\Delta t\nabla_x\log p_t(x)+\frac{(\beta(t)\Delta t)^2}{2}\nabla_x\log p_t(x)+\sqrt{\beta(t)\Delta t}z(t)\\=&\left[1+\frac{1}{2}\beta(t)\Delta t\right]x(t)+\left[1+\frac{\beta(t)\Delta t}{2}\right]\beta(t)\Delta t\nabla_x\log p_t(x)+\sqrt{\beta(t)\Delta t}z(t)\\=&\left[1+\frac{\beta(t)\Delta t}{2}\right]\left(x(t)+\beta(t)\Delta t \nabla_x\log P_t(x)\right)+\sqrt{\beta(t)\Delta t}z(t)\\\approx&\left[\frac{1}{\sqrt{1-\beta(t)\Delta t}}\right]\left(x(t)+\beta(t)\Delta t \nabla_x\log P_t(x)\right)+\sqrt{\beta(t)\Delta t}z(t)\end{aligned}\nonumber$
第一个约等号是因为 $\beta(t)\Delta t \ll 1$ 。第二个约等于是因为泰勒展开

令 $x(t-\Delta t)=x_{i-1},x(t)=x_i,\beta(t)=\bar \beta_i,\Delta t=\frac{1}{N},z(t)=z_i$ ，并由正向过程曾定义过 $\beta_i=\frac{1}{N}\bar\beta_i=\Delta t\beta(t)$ ，又有 $\nabla_x\log P_t(x)\approx s_\theta$

将其代入可得
$x_{i-1}=\frac{1}{\sqrt{1-\beta_i}}\left(x_i+\beta_is_\theta\right)+\sqrt{\beta_i}z_i$
可以看到这就是DDPM的采样方式（祖先采样）

接下来我们来看NCSN的

对于NCSN我们所要推导出来的并不是郎之万动力采样。而是NCSN的祖先采样（ $q(x_{i-1}|x_i，x_0)$ ），依据马尔可夫性质，它是完全可以算出来的（计算方法与DDPM一样），以下我直接给出结论（不懂的可以看一下DDPM那篇论文，或者看论文）
$q(x_{i-1}|x_i,x_0)=\mathcal{N}\left(x_{i-1};\frac{\sigma^2_{i-1}}{\sigma^2_{i}}x_i+(1-\frac{\sigma_{i-1}^2}{\sigma^2_{i}})x_0,\frac{\sigma^2_{i-1}(\sigma^2_{i}-\sigma^2_{i-1})}{\sigma^2_{i}}I\right)$
同样与DDPM那边，把里面的 $x_0$ 用加噪过程 $x_i=x_0+\sigma_iz$ 代入即可把期望变成
$\mu=x_i(x_0,z)+(\sigma^2_{i}-\sigma^2_{i-1})s$
其中 $s=-\frac{z}{\sigma_i}$

所以采样方法就是
$x_{i-1}=x_i+(\sigma^2_{i}-\sigma^2_{i-1})s_\theta(x_i,i)+\sqrt{\frac{\sigma^2_{i-1}(\sigma^2_{i}-\sigma^2_{i-1})}{\sigma^2_{i}}}z$
我们在DDPM那里说过，对于方差的选择，其实会选择成加噪过程的方差，所以有
$x_{i-1}=x_i+(\sigma^2_{i}-\sigma^2_{i-1})s_\theta(x_i,i)+\sqrt{(\sigma^2_{i}-\sigma^2_{i-1})}z$
②NCSN： $\mathbb{f(x,t)=0},g(t)=\sqrt{\frac{d\left[\sigma^2(t)\right]}{dt}}$
$\begin{aligned}\mathbb{dx}=&\left[\mathbb{f(x,t)}-\sqrt{\frac{d\left[\sigma^2(t)\right]}{dt}}\nabla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\\=&-\frac{d\left[\sigma^2(t)\right]}{dt}\nabla_x\log p_t(x)\mathbb{dt}+\sqrt{\frac{d\left[\sigma^2(t)\right]}{dt}}\mathbb{d\bar w}\end{aligned}\nonumber$
即
$\begin{aligned}x(t-\Delta t)=&x(t)+\frac{\sigma^2(t)-\sigma^2(t-\Delta t)}{\Delta t}\nabla_x\log p_t(x)\mathbb{\Delta t}+\sqrt{\frac{\sigma^2(t)-\sigma^2(t-\Delta t)}{\Delta t}\Delta t}\mathbb{z(t)}\\=&x(t)+\left(\sigma^2(t)-\sigma^2(t-\Delta t)\right)\nabla_x\log p_t(x)+\sqrt{\sigma^2(t)-\sigma^2(t-\Delta t)}z(t)\end{aligned}\nonumber$
如同DDPM那般，便可得到NCSN的采样方法
$x_{i-1}=x_i+(\sigma^2_i-\sigma^2_{i-1})s_\theta+\sqrt{\sigma^2_i-\sigma^2_{i-1}}z_i\tag{9}$

由此，证明完毕，与NCSN里面的方式是一样的。

5、SDE数值求解器

5.1、反向扩散采样器

这一节针对采样问题

反向过程是一个SDE，那么问题就来了，我们肯定需要采样，如果采样就必须设定一定的采样步骤（肯定不能是连续，不离散化我们怎么采样）。那么该如何离散化呢？这就是要涉及数值求解器，不同的离散化方案就对应不同的数值求解器（采样方法）

我们曾证明DDPM和NCSN的采样方法（祖先采样）可以连续化成SDE。那么很显然DDPM和NCSN里面的祖先采样就是一种离散化方案，对应一个采样过程

论文假设前向加噪过程已经进行了离散化预设，即加噪时刻为 $i\in\{0,1,\cdots,N-1\}$

DDPM：

由
$\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\nabla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\tag{10}$
时间步 $dt=-\Delta t$ ，由我们之前所说 $\Delta t\beta(t)=\Delta t\bar\beta_i=\beta_i$ ， $\mathbb{f(x,t)}=-\frac{1}{2}\beta(t)x(t)$ ， $g(t)=\sqrt{\beta(t)}$ ，所以我们可以得到
$x(t-\Delta t)-x(t)=\frac{1}{2}\beta(t)\Delta tx(t)+\beta(t)\Delta t\nabla_x\log p_t(x)+\sqrt{\beta(t)\Delta t}z(t)$
把 $x (t)$ 移动到等式右边，并写成下标的形式，对数梯度写成分数s
$\begin{aligned}x_{i-1}=&(1+\frac{1}{2}\beta_i)x_{i}+\beta_is_\theta(x_i,i)+\sqrt{\beta_i}z_i\\=&\left[2-(1-\frac{1}{2}\beta_i)\right]x_{i}+\beta_is_\theta(x_i,i)+\sqrt{\beta_i}z_i\\\approx&\left(2-\sqrt{1-\beta_i}\right)x_i+\beta_is_\theta(x_i,i)+\sqrt{\beta_i}z_i\end{aligned}\tag{11}$
最后一个约等号，是泰勒展开（ $\beta_i\to 0$ ）。由此我们得到了这个采样步骤

而对NCSN，也是一样的道理

NCSN： $\mathbb{f(x,t)=0},g(t)=\sqrt{\frac{d\left[\sigma^2(t)\right]}{dt}}$
$\begin{aligned}x(t-\Delta t)-x(t)=&\frac{(\sigma_i^2-\sigma_{i-1}^2)}{\Delta t}\Delta t\nabla_x\log p_t(x)+\sqrt{\frac{(\sigma_i^2-\sigma_{i-1}^2)}{\Delta t}\Delta t}z(t)\end{aligned}\nonumber$
整理后可得
$x_{i-1}=x_i+(\sigma_i^2-\sigma_{i-1}^2)s_\theta(x_i,i)+\sqrt{\sigma_i^2-\sigma_{i-1}^2}z_i\tag{12}$

事实上，如果我们有一个离散化的方案，可以把Eq.(10)变成如下形式（把离散的时间写入f，g的下标）
$x_{i-1}=x_{i}-\mathbb{f}_{i}(x_i)+g_i^2s_\theta(s_i,i)+g_iz_i\tag{13}$
基于Eq.(13)而形成的采样方法（如Eq.(11)、Eq(12)），论文统称为反向扩散采样器

5.2、其他离散化方案

不同的离散化方案，造就了不同的采样方式。作者列举了目前比较出名的采样方式

比如欧拉-丸山法（Euler-Maruyama）和龙格-库塔法（ Runge-Kutta）。感兴趣的自行百度即可。

5.3、预测-校正采样器

不同的离散化方案总是存在一定的误差，因为时间本身是连续的。为了减小这种误差，我们总是寻找较好的离散化方案。但再好的方案也都是会存在些许误差。为了消去这些误差，论文提出预测-矫正采样器

具体来说，我们都知道，使用SDE数值求解器，可以得到某个时间的离散化样本估计（此为预测），由于是离散化的，他总是存在一些误差。如何消去这些误差呢？当燃是使用MCMC的方法（我在之前可能没有提到过，其实就是马尔可夫蒙特卡洛，比如之前的郎之万动力采样就是其中的一个类型，该方法可以让点走到概率最高点附近），故而把该步骤称为校正

在这里插入图片描述

蓝色部分为预测（先预测一个离散时刻的点），黄色部分为校正（对预测其的输出进行MCMC校正，使其走到概率最高点附近）

6、概率流ODE

对每个反向SDE，都存在一个对应的ODE（常微分），其实就是把SDE的随机项去掉。把随机项去掉之后，就变成了一个确定的过程。论文对这个确定的ODE进行了推导，得到了下面ODE（感兴趣的自己看吧，字数太多又发不了了）
$\mathbb{dx=}\left[\mathbb{f(x,t)}-\frac{1}{2}g(t)^2\nabla_x\log p_t(x)\right]\mathbb{dt}$
我们可以得到和SDE那样的离散化采样器，求法都是一样的(把对应的f，g的值代进去)，所以可以得到

DDPM：
$x_{i-1}=(2-\sqrt{1-\beta_i})x_i+\frac{1}{2}\beta_{i}s_\theta(x_i,i)$
NCSN：
$x_{i-1}=x_{i}+\frac{1}{2}(\sigma_i^2-\sigma_{i-1}^2)s_\theta(x_i,i)$
除此之外，通过其他离散化方案，使用黑盒ODE求解器，能够让采样过程变得高效。

当燃了，虽然高效，但是在没有校正器的情况下，他们的FID（一个衡量指标）往往不如SDE的求解器

7、其他内容

①除此之外，我们在之前的正向SDE中，曾给出过公式，里面的 $g (t)$ 只跟时间有关，其实更一般的，他还跟x有关，所以
$\mathbb{dx=f(x,t)dt}+G(x,t)\mathbb{dw}$
其中 $G(\cdot,t):\mathbb{R}^d\to \mathbb{R}^{d\times d}$

同样的反向过程可以表示为
$\mathbb{dx}=\left[f(x,t)-\nabla G(x,t)G(x,t)^T\right]-G(x,t)G(x,t)^T\nabla_x\log p_t(x)\mathbb{dt}+G(x,t)\mathbb{d\bar w}$

②论文里面还提到的条件生成的SDE，感兴趣的自己去看看

③论文还提到的似然的计算，感兴趣的自己去看看

④论文还提到了很多的其他的小细节，感兴趣的自己去看看

8、DDIM附加

这篇论文并没有讲到DDIM，但是DDIM提到了这篇论文。DDIM里面说到他们的方法ODE化之后等价于VE SDE的ODE形式（但采样方法不同），里面有所证明，感兴趣的可以看看Denoising Diffusion Implicit Models (arxiv.org)

9、结束

好了，本篇文章到此为止，如有误entire，还望指出，阿里嘎多！

在这里插入图片描述

10、参考

Score-based SDE 扩散生成模型从入门到出师系列(二)：揭秘随机微分方程如何应用于采样生成 - 知乎 (zhihu.com)

篝火者2312

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基于SDE的分数生成模型

1、前言本篇文章，将从SDE（随机微分方程）视角，去解释前两个模型（DDPM、NCSN），将它们统一起来。并从SDE视角上，提供一个具有更高似然的新模型。与此同时，提供各种新式采样方法。参考论文：①Score-Based Generative Modeling through Stochastic Differential Equations (arxiv.org)②Tutorial on Diffusion Models for Imaging and Vision (arxiv.org)（这篇论
复制链接

扫一扫

专栏目录