Diffusion Models

平丘月初

已于 2024-01-26 00:26:28 修改

阅读量876

点赞数 29

文章标签：机器学习人工智能 python

于 2024-01-18 23:56:45 首次发布

本文链接：https://blog.csdn.net/u011994454/article/details/135685981

版权

DDPM

$x_0 \sim q(x_0)$ 是真实数据分布，扩散模型学习一个分布 $p_\theta(x_0)$ 去逼近真实数据分布。
$p_\theta(x_0) := \int p_\theta(x_{0:T})dx_{1:T} \tag{1}$
$x_1,...,x_T$ 是和数据 $x_0 \sim q(x_0)$ 相同维度的隐变量。联合概率分布 $p_\theta(x_{0:T})$ 称为reverse process，逆过程，去噪过程。被定义为从 $p(x_T)=N(x_T;\bold0,\bold I)$ 开始的马尔可夫链，转移矩阵为高斯分布。
$p_\theta(x_{0:T}) :=p(x_T)\prod_{t=1}^T p_\theta(x_{t-1}|x_t) \tag{2}$
$p_\theta(x_{t-1}|x_t) :=N(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) \tag{3}$
均值和方差是 $x_t, t$ 的函数，标准高斯分布有了均值和方差，就可以从 $x_t$ 中采样出 $x_{t-1}$ 。
diffusion模型不同于其他隐变量模型的地方在于，近似后验分布 $q(x_{1:T}|x_0)$ ，一般也被称为前向过程或者diffusion过程，是一个马尔可夫链。可以根据方差调度值 $\beta_1,..., \beta_T$ 逐步对数据 $x_0$ 加噪声。
$q(x_{1:T}|x_0) := \prod_{t=1}^Tq(x_t|x_{t-1}) \tag{4}$
$q(x_t|x_{t-1}) := N(x_t;, \sqrt{1-\beta_t}x_{t-1}, \beta_t\bold I) \tag{5}$
我们定义：
$a_t := 1 - \beta_t, \quad \bar{a}_t := \prod_{s=1}^{t} \alpha_s \tag{6}$
$x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}\epsilon_t, \quad \epsilon_t \sim N(\bold0, \bold I) \tag{7}$
$x_{t-1} = \sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t-1}}\epsilon_{t-1}, \quad \epsilon_{t-1} \sim N(\bold0, \bold I) \tag{8}$

$\begin{aligned} x_t &= \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t-1}}\epsilon_{t-1}) + \sqrt{1-\alpha_t}\epsilon_t \\ &= \sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + \sqrt{\alpha_t - \alpha_t\alpha_{t-1}}\epsilon_{t-1} + \sqrt{1-\alpha_t}\epsilon_t \\ &=N(x_t; \sqrt{\alpha_t\alpha_{t-1}}x_{t-2}, \sqrt{1-\alpha_t\alpha_{t-1}}\bold I) \\ &=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}}\tilde{\epsilon}_t \\ & ...... \\ &= N(x_t; \sqrt{\bar{\alpha}_t}x_0, \sqrt{1 - \bar{\alpha}_t} \bold I) \tag{9} \end{aligned}$
这个性质很重要，意味着可以不需要迭代过程，直接获得任意时间t的加噪数据。正常来说T都比较大，DDPM设为1000， $a_t = 1 - \beta_t \in [0, 1]$ , 根据极限可知，随着t越来越大，最终加噪后的数据分布趋近于各向同性的标准高斯分布。也为reverse process从一个标准高斯分布采样开始逐步去噪得到最终sample的过程，两相契合。

forward process是加噪过程，也是训练过程，从数据集中采样 $x_0 \sim q(x_0)$ ，随机选取timestep t, 根据式(9)得到 $x_t$ , $x_t$ 和 $t$ 做为网络输入，估算后验分布 $q(x_{t-1}|x_t, x_0)$ ，假设后验分布为高斯分布，则估算的就是高斯分布的均值和方差，式(11)和(12)就是网络学习时，均值和方差的gt。DDPM这篇工作假设方差是预定义好的，不需要网络学习。只需要学习均值即可。
$q(x_{t-1}|x_t, x_0) = N(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta_t}\bold I) \tag{10}$
where
$\tilde{\mu}_t(x_t, x_0) :=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})} {1-\bar{\alpha}_t} x_t \tag{11}$
and
$\tilde{\beta}_t := \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \beta_t \tag{12}$
具体推导如下：
$\begin{aligned} q(x_{t-1}|x_t, x_0) &=q(x_t|x_{t-1}, x_0)\frac{q(x_{t-1}|x_0)}{q(x_{t}|x_0)} \\ & \propto exp(-\frac{1}{2}(\frac{(x_t - \sqrt{\alpha_t}x_{t-1})^2}{\beta_t} + \frac{(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}}x_0)^2}{1-\bar{\alpha}_{t-1}} + \frac{(x_{t}-\sqrt{\bar{\alpha}_{t}}x_0)^2}{1-\bar{\alpha}_{t}}))\\ &= exp(-\frac{1}{2}((\frac{\alpha_t}{\beta_t} + \frac{1}{1-\bar{\alpha}_{t-1}})x^2_{t-1} + (\frac{2\sqrt{\alpha_t}}{\beta_t} + \frac{2\sqrt{\bar{\alpha}_{t-1}}x_0}{1-\bar{\alpha}_{t-1}})x_{t-1} + C(x_0, x_t))) \tag{13}\\ \end{aligned}$
将上式整理为高斯分布形式，可得：
$\tilde{\beta}_t = \frac{1}{\frac{\alpha_t}{\beta_t} + \frac{1}{1-\bar{\alpha}_{t-1}}}=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}}\beta_t \tag{14}$
$\begin{aligned} \tilde{\mu}_t(x_t, x_0) &=(\frac{\sqrt{\alpha_t}}{\beta_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1-\bar{\alpha}_{t-1}}) / (\frac{\alpha_t}{\beta_t} + \frac{1}{1-\bar{\alpha}_{t-1}}) \\ &= (\frac{\sqrt{\alpha_t}}{\beta_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1-\bar{\alpha}_{t-1}}) \cdot(\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}}\beta_t)\\ &=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\alpha_t}x_t + \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 \\ \tag{15} \end{aligned}$
一般DDPM的代码中会提前算好 $x_t$ 和 $x_0$ 之前的系数。
根据式(9)可得：
$x_0 = \frac{1}{\sqrt{\alpha}_t}(x_t - \sqrt{1-\bar{\alpha}_t}Z_t) \tag{16}$
代入式(15)进一步化简可得：
$\tilde{\mu}_t(x_t, x_0) = \frac{1}{\sqrt{\alpha}_t}(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}Z_t)$
这里的 $Z_t$ 为t时刻的高斯噪声。

网络收敛后，就可以从 $x_T\sim N(\bold 0, \bold I)$ 采样开始。逐步去噪，得到最终的样本。

（这个还要补个VLB的推导）
最大化log likelihood, 也即最小化negative log likelihood,
$\begin{aligned} L &=E_q[-log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}] \\ &= E_q[] \\ \end{aligned}$

网络学习和输出的是t时刻的噪声。根据下式得到均值：
$\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha}_t}(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t, t))$
采样 $x_{t-1}\sim p_\theta(x_{t-1}|x_t)$ 可以通过 $x_{t-1}=\mu_\theta(x_t, t) + \sigma z$ 得到, $z\sim N(\bold 0, \bold I)$ 。

在这里插入图片描述
DDPM的优点就不说了，缺点主要有两个，推理过程步长太长，过于耗时。 $\beta$ 的设计导致加噪到T时刻，信噪比SNR不为0，加噪对原始数据分布破坏的不彻底，得到的不是真实的高斯分布噪声，原始数据分布中的一些低频信息泄露，导致文生图任务中，即便强prompt引导，生成的图片亮度也是围绕到0.5周围，无法产生过亮或者过暗的图片。

DDIM

解决DDPM的步长问题。

Progressive Distillation

进一步解决DDPM的步长问题。

Zero SNR

解决常规 $\beta$ 调度策略无法产生zero SNR的问题。

SDE

扰动核函数perturbation kernel如下，对x施加一个方差为 $\sigma^2 \bold I$ 的扰动：
$p_\sigma(\tilde{x}|x) := N(\tilde{x};x, \sigma^2 \bold I)$
我们考虑如下的噪声尺度序列：
$\sigma_{min} = \sigma_{1} < \sigma_2<...<\sigma_N = \sigma_{max}$
$\sigma_{min}$ 足够小，以至于 $p_{\sigma_{min}}(x)\approx p_{data}(x)$ ； $\sigma_{max}$ 足够大，以至于 $p_{\sigma_{max}}(x)\approx N(x; \bold 0, \sigma^2_{max}\bold I)$ 。
我们用 $S_\theta(x, \sigma)$ 表示Noise Condtional Score Network (NCSN)，该网络的目标函数如下，可以理解为找到最优参数 $\theta$ ，可以最小化denoising score matching，所有噪声尺度的加权和：

Stochastic Differential Equations
在这里插入图片描述

Forward SDE (data -> noise):
$d x = f (x, t) d t + g (t) d w$
Reverse SDE (noise -> data):
$g^2(t)\nabla_xlogp_t(x)]dt + g(t)d\bar{w}$
这里面的 $\nabla_xlogp_t(x)$ 就是score function：the gradient of the log probability density with respect to data。

SD

vae + unet + clip encoder + noise scheduler

SDXL Turbo

文章：Adversarial Diffusion Distillation
目标是用尽可能少的steps生成高保真样本，质量对标SOTA模型。
方法：引入两个训练目标函数的结合，1）adversatial loss：迫使模型每次的前向推理，生成的样本都在真实图片的流形上，避免产生模糊和其他典型的artifacts。2）distillation loss：用另外一个预训练好的DM模型做老师，学习教师模型的强大合成能力。
SDXL Turbo推理时，没有使用classifier-free guidance，进一步降低了内存消耗。
在这里插入图片描述
ADD-student用预训练的UNet-DM权重 $\theta$ 进行初始化，判别器的可训练权重表示为 $\phi$ ，DM-teacher的冻结权重表示为 $\psi$ 。训练时，ADD学生模型从噪声数据 $x_s$ 生成样本 $\hat{x}_\theta(x_s, s)$ ， $x_s = \alpha_s x_0 + \sigma_s\epsilon$
$L_{adv}^G(\hat{x}_\theta(x_s, s), \phi) + \lambda L_{distill}(\hat{x}_\theta(x_s, s), \psi)$
$L_{distill}(\hat{x}_\theta(x_s, s), \psi) = E_{t, \epsilon^{'}}[c(t)d(\hat{x}_\theta, \hat{x}_\psi(sg(\hat{x}_{\theta, t}); t))]$
$L_{adv}^G(\hat{x}_\theta(x_s, s), \phi) = E_{x_0}[\sum_k(max(0, 1 - D_{\phi, k}(F_k(x_0))) + \gamma R_1(\phi)] + E_{\hat{x}_\theta}[\sum_k(max(0, 1 + D_{\phi, k}(F_k(\hat{x}_\theta)))]$
$\hat{x}_\theta$ : student sample
$\hat{x}_\psi(\hat{x}_{\theta, t}, t)$ : teacher’s denoising prediction, 做为蒸馏loss的重建目标。
$\lambda$ : $R_1$ 惩罚的强度，文章的经验值是2.5。
$R_1$ : 代表 $R_1$ 梯度惩罚。
$F$ : frozen pretrained feature network，这里用的是ViT， $F_k$ 是特征网络不同层的输出特征。
$s g$ : stop gradient operation。
$d$ : distance metric, 用来衡量ADD-student生成样本 $x_\theta$ 和DM-teacher的输出之间的不匹配度。 $d(x, y) := ||x - y||_2^2$
$c (t)$ : weighting function。

实验阶段，训练了两个不同容量的模型，ADD-M 860M 参数量，继承SD 2.1 backbone的权重，ADD-XL 3.1B参数量，继承SDXL backbone的权重。所有实验在512x512分辨率上进行。

平丘月初

关注

29
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Diffusion Models

根据极限可知，随着t越来越大，最终加噪后的数据分布趋近于各向同性的标准高斯分布。也为reverse process从一个标准高斯分布采样开始逐步去噪得到最终sample的过程，两相契合。，假设后验分布为高斯分布，则估算的就是高斯分布的均值和方差，式(11)和(12)就是网络学习时，均值和方差的gt。只需要学习均值即可。这个性质很重要，意味着可以不需要迭代过程，直接获得任意时间t的加噪数据。，一般也被称为前向过程或者diffusion过程，是一个马尔可夫链。的函数，标准高斯分布有了均值和方差，就可以从。
复制链接

扫一扫