Score-Based Generative Modeling Through Stochastic Differential Equations (Paper reading)

努力学图像处理的小菜

已于 2023-03-13 23:53:07 修改

阅读量2.8k

点赞数 14

分类专栏：扩散模型文章标签：机器学习算法人工智能

于 2023-03-10 14:36:45 首次发布

本文链接：https://blog.csdn.net/qq_43800752/article/details/129422654

版权

扩散模型专栏收录该内容

45 篇文章

订阅专栏

文章介绍了一种新的生成建模方法，通过SDE将复杂数据分布平滑转换为已知先验。利用逆向时间SDE和神经网络估计得分，实现从先验分布到原始数据分布的转换。这种方法结合了先前的基于得分和扩散概率建模的方法，允许更灵活的采样和建模策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Score-Based Generative Modeling Through Stochastic Differential Equations

Yang Song, Stanford University, ICLR2021, Cited:723, Code: 无, Paper.

目录子

Score-Based Generative Modeling Through Stochastic Differential Equations

1. 前言

这篇文章是关于一种新的生成建模方法，它通过随机微分方程（SDE）将复杂的数据分布平滑地转换为已知的先验分布。通过逆向时间SDE，可以将先验分布转换回数据分布。这种方法依赖于扰动数据分布的时间相关梯度场（即得分），可以使用神经网络准确估计这些得分，并使用数值SDE求解器生成样本。该框架包含了以前在基于得分的生成建模和扩散概率建模中的方法，并允许新的采样过程和新的建模能力。

2. 方法

2.1 SDE推导

随机微分方程SDE是一种微分方程，其中一个或多个项是随机过程，其解本身也是一个随机过程。SDE用于对股价和利率波动等现象进行建模。推导过程如下，假设我们有一个确定性的微分方程：
$\begin{equation} dx = f(x)dt \end{equation}$
其中， $x$ 是一个函数， $f$ 是一个已知的函数。我们可以用欧拉法来离散化这个方程，得到：
$\begin{equation} x_{t+\Delta t} - x_t = f(x_t)\Delta t \end{equation}$
其中， $\Delta t$ 是一个小的时间间隔。如果我们想要在这个方程中加入一些随机性，比如说由于测量误差或者外部干扰等原因，我们可以在右边加上一个噪声项：
$\begin{equation} x_{t+\Delta t} - x_t = f(x_t)\Delta t + g(x_t)\sqrt{\Delta t}\epsilon \end{equation}$
其中， $g$ 是一个已知的函数， $\epsilon$ 是一个服从标准正态分布的随机变量。这样，我们就得到了一个离散形式的SDE。如果我们让 $\Delta t \to 0$ ，那么我们就可以得到连续形式的SDE的一般形式：
$\begin{equation} dx = f(x)dt + g(x)dW_t \end{equation}$
本身扩散模型就属于一个随机过程，那么用SDE描述扩散过程便是一个自然的事。

2.2 基于SDE的扩散过程

$\begin{equation} dx = f(x,t)dt + g(t)dw \end{equation}$
其中， $f (x, t)$ 是漂移项，表示确定性的变化； $g (t) d w$ 是扩散项，表示随机性的变化。 $d w$ 表示维纳过程（也称为布朗运动）的增量。飘逸项是从前一个状态到下一个状态的变化量。扩散项中的 $d w$ 指的是加入的噪声， $g (t)$ 是加噪的强度。

2.3 基于SDE的扩散重建

一下推导来自B站台UP主VictorYuki，将公式5写为离散形式
$\begin{equation} x_{t+\Delta t} = x_t + f(x_t,t)\Delta t + g(t)\sqrt{\Delta t }\epsilon \end{equation}$
这里 $\epsilon \sim N(0,1)$ 。 $x_{t+\Delta t}$ 在给定 $x_{t}$ 时的概率分布，当 $\epsilon$ 是一个标准正态随机变量，在这种情况下， $x_{t+\Delta t}$ 服从一个正态分布，均值为 $x_t + f(x_t,t)\Delta t$ ，方差为 $g^{2}(t)\Delta tI$ 。
$\begin{equation} p(x_{t+\Delta t}|x_{t}) \sim N(f(x_t,t)\Delta t , g^{2}(t)\sqrt{\Delta t }I) \end{equation}$
要从 $t+\Delta t$ 得到 $x_{t}$ ，需要求解:
$\begin{align} p(x_{t}|x_{t+\Delta t})&=p(x_{t+\Delta t}|x_{t})p(x_{t})/p(x_{t+\Delta t})\\ &= p(x_{t+\Delta t}|x_{t})exp\{logp(x_{t})-logp(x_{t+\Delta t})\} \end{align}$
先将 $logp(x_{t+\Delta t})$ 泰勒一阶展开得 $logp(x_{t})+(x_{t+\Delta t}-x_{t}) \nabla _{x_{t}}logp(x_{t})+\Delta t \frac{\partial }{\partial t}logp(x_{t})$ ，带入公式9并将其第一项展开为高斯分布形式得：
${\small \begin{align} Eq. (9) &\propto exp\left \{ -\frac{\left \| x_{t+\Delta t}-x_{t}-f(x_{t},t)\Delta t \right \|_{2}^{2} }{2g^{2}(t)\Delta t} - (x_{t+\Delta t}-x_{t})\nabla_{x_{t}} logp(x_{t}) - \Delta t \frac{\partial }{\partial t}logp(x_{t}) \right \} \\ &=exp\left \{ -\frac{\left \| (x_{t+\Delta t}-x_{t}) -(f(x_{t},t)- g^{2}(t)\nabla_{x_{t}} logp(x_{t}))\Delta t \right \|_{2}^{2} }{2g^{2}(t)\Delta t} -\Delta t \frac{\partial }{\partial t}logp(x_{t}) - \frac{f^{2}(x_{t},t)\Delta t}{g^{2}(t)} + \frac{(f(x_{t},t)-g^{2}(t)\nabla_{x_{t}} logp(x_{t}))^{2}\Delta t}{2g^{2}(t)} \right \} \end{align}}$
因为我们是从 $x_{t+\Delta t}\to x_{t}$ ，因此我们得到的分布应为都是关于时间 $t+\Delta t$ 的，把（11）中的 $t$ 都改写，并当 $\Delta t \to 0$ 时，后面三项：
${\small \begin{equation} Eq. (11) \approx exp\left \{ -\frac{\left \| (x_{t+\Delta t}-x_{t}) -(f(x_{t+\Delta t},t+\Delta t)- g^{2}(t+\Delta t)\nabla_{x_{t+\Delta t}} logp(x_{t+\Delta t}))\Delta t \right \|_{2}^{2} }{2g^{2}(t+\Delta t)\Delta t}\right \} \end{equation}}$
可以得到 $p(x_{t}|x_{t+\Delta t})$ 的均值为 $(x_{t+\Delta t}-x_{t}) -(f(x_{t+\Delta t},t+\Delta t)- g^{2}(t+\Delta t)\nabla_{x_{t+\Delta t}} logp(x_{t+\Delta t})$ ，方差为 $2g^{2}(t+\Delta t)\Delta t$ 。则采样的连续公式为：
$\begin{equation} dx=[f(x,t)-g^{2}(t)\nabla_{x_{t}}logp(x_{t})]dt+g(t)dw \end{equation}$
离散的过程表示为：
$\begin{equation} x_{t-1}=x_{t}-[f(x_{t},t)-g^{2}(t)\nabla_{x_{t}}logp(x_{t})+g(t) \epsilon \end{equation}$

2.4 Variance Exploring(VE)and Variation Preserving(VP)

SDE在理论上统一了Score-based Model (NCSN)和DDPM，他们分别对应VE and VP。VE扩散过程在扩散过程的每个步骤增加了更多的噪声，导致潜在变量的分布更广。这有助于探索不同的数据分布模式。VP扩散过程在扩散过程的每个步骤中保持方差恒定，从而导致潜在变量的球形高斯分布。这有助于保存信息并避免模式崩溃。这两种方法都旨在提高扩散模型采样的效率和准确性。然而，VE比VP具有一些优势，例如更好的似然估计、更快的收敛和更低的内存消耗。

方法	Variance Exploring	Variation Preserving
$x_{t}=$	$x_{0}+\sigma_{t}\epsilon$	$\sqrt{\bar{\alpha_{t}}}x_{0}+\sqrt{1-\bar{\alpha_{t}}}\epsilon$
$x_{t+1}=$	$x_{t}+\sqrt{\sigma_{t+1}^{2}-\sigma_{t}^{2}}\epsilon$	$\sqrt{1-\beta_{t+1}}x_{t}+\sqrt{\beta_{t+1}}\epsilon$

我们现在要求公式6中的 $f(x_{t},t)$ 和 $g (t)$ ，将公式17和公式21分别与公式6比对，就可求出：
VE： $f(x_{t},t)=0$ 和 $g(t)=\frac{d}{dt}\sigma_{t}^{2}$ 。
$\begin{align} x_{t+\Delta t}&=x_{t}+\sqrt{\sigma_{t+\Delta t}^{2}-\sigma_{t}^{2}}\epsilon\\ &= x_{t} + \sqrt{(\sigma_{t+\Delta t}^{2}-\sigma_{t}^{2})/\sqrt{\Delta t}} \sqrt{\Delta t}\epsilon\\ &=x_{t} + \sqrt{\Delta \sigma_{t}^{2}/\sqrt{\Delta t}} \sqrt{\Delta t}\epsilon \end{align}$
VP： $f(x_{t},t)=-\frac{1}{2}\beta(t)x_{t}$ 和 $g(t)=\sqrt{\beta(t)}$ 。我们知道加噪是按照一个序列 $\{\beta_{i} \}_{i=1}^{T}$ 进行，令 $\{\bar \beta_{i}=T\beta_{i} \}_{i=1}^{T}$ ，则当 $T$ 趋近于无穷时， $\{\bar\beta_{i} \}_{i=1}^{T} \to \beta(t),t \in[0,1]$ ，接近一个函数。且有 $\beta(\frac{i}{T})=\bar \beta_{i}$ ，并令 $\Delta t=\frac{1}{T}$ ，那么：
$\begin{align} x_{t+1}&=\sqrt{1-\frac{\bar \beta_{t+1}}{T}}x_{t}+\sqrt{\frac{\bar \beta_{t+1}}{T}}\epsilon \\ x_{t+\Delta t} &= \sqrt{1-\beta(t+\Delta t)\Delta t}x_{t}+\sqrt{\beta(t+\Delta t)\Delta t}\epsilon \\ &\approx (1-\frac{1}{2}\beta(t+\Delta t)\Delta t)x_{t}+\sqrt{\beta(t+\Delta t)}\sqrt{\Delta t}\epsilon \\ &\approx x_{t}-\frac{1}{2}\beta(t)\Delta tx_{t}+\sqrt{\beta(t)}\sqrt{\Delta t}\epsilon \end{align}$
至此，我们通过SDE表示出了VE和VP。

2.5 联系

Score-based Model中的score: $s_{\theta}(x_{t},t)$ 和DDPM中的Denoiser: $\epsilon_{\theta}(x_{t},t)$ 之间有什么联系？在DDPM中， $x_{t}\sim N(\sqrt{\bar{\alpha_{t}}}x_{0}+1-\bar{\alpha_{t}}I)$ ，则 $p(x_{t}) \propto exp\{-\frac{||x_{t}-\sqrt{\bar \alpha_{t}}x_{0}||_{2}^{2}}{2(1-\bar \alpha_{t})}\}$ ，将 $p(x_{t})$ 带入下面公式并求导得到score：
$\begin{equation} score=\nabla_{x_{t}}logp(x_{t})=-\frac{x_{t}-\sqrt{\bar \alpha_{t}}x_{0}}{1-\bar \alpha_{t}} \end{equation}$ 。
在DDPM中， $x_{t}= \sqrt{\bar{\alpha_{t}}}x_{0}+\sqrt{1-\bar{\alpha_{t}}}\epsilon$ ，可以推出 $\epsilon=\frac{x_{t}-\sqrt{\bar{\alpha_{t}}}x_{0}}{\sqrt{1-\bar{\alpha_{t}}}}$ 。且优化函数为
$\begin{equation} L_{t-1}^{\text {simple }}=\mathbb{E}_{\mathbf{x}_{0}, \epsilon \sim \mathcal{N}(0, \mathbf{I})}\left[\left\|\epsilon-\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon, t\right)\right\|^{2}\right] \end{equation}$
那么可以得到 $\epsilon_{\theta}(x_{t},t)=\frac{x_{t}-\sqrt{\bar \alpha_{t}}x_{0}}{\sqrt{1-\bar \alpha_{t}}}$ ，并于公式22对比可以得到他们之间的联系：
$\begin{equation} s_{\theta}(x_{t},t) \approx -\frac{1}{\sqrt{1-\bar \alpha_{t}}}\epsilon_{\theta}(x_{t},t) \end{equation}$
即通过这个系数就可以完成Score-based Model和DDPM的转换。

VE与VP之间的联系？VE中： $x_{t}=x_{0}+\sigma_{t}\epsilon$ ，两边同除： $\frac{x_{t}}{ \sqrt{1+\sigma_{t}^{2}}}=\frac{x_{0}}{\sqrt{1+\sigma_{t}^{2}}} +\frac{\sigma_{t}}{\sqrt{1+\sigma_{t}^{2}}}\epsilon$ ，我们令VP中的 $\bar x_{t}=\frac{x_{t}}{ \sqrt{1+\sigma_{t}^{2}}}$ ，并令 $\sqrt{\bar \alpha_{t}}=\frac{1}{ \sqrt{1+\sigma_{t}^{2}}}$ ，这样做的意义就构建他们之间的联系，就是通过VE中的 $\sigma_{t}$ 来获得VP中的加噪序列 $\alpha_{t}$ ，最后 $\sqrt{1-\bar \alpha_{t}}=\frac{\sigma_{t}}{ \sqrt{1+\sigma_{t}^{2}}}$ ，则VP中： $x_{t}=\sqrt{\bar \alpha_{t}}x_{0}+\sqrt{1-\bar \alpha_{t}}\epsilon$ 。