论文阅读：Improved Denoising Diffusion Probabilistic Models

最新推荐文章于 2025-03-09 00:00:00 发布

天天都在摸鱼的乐乐

最新推荐文章于 2025-03-09 00:00:00 发布

阅读量3.5k

点赞数

分类专栏：扩散模型diffusion 文章标签：论文阅读深度学习机器学习

本文链接：https://blog.csdn.net/qq_46401672/article/details/126929571

版权

扩散模型diffusion 专栏收录该内容

3 篇文章

订阅专栏

本文是对ddpm简单的修改，但是能提高ddpm的性能

论文下载地址：https://proceedings.mlr.press/v139/nichol21a.html

我们发现反向过程中可学习的方差允许一个数量级的采样，样本质量的差异可以忽略不计，这对于模型的实际部署很厉害。

关于变分下界的优化

使用简单的重参数化技巧学习优化变分下界。反向过程的方差使用简单的重参数化技巧和一个混合的目标vlb函数。

这样的变化导致少的采样步数，但是发生了很小的质量改变

在实际训练中，关于 $\mu(x_t,t)$ 的参数化的方式
使用网络预测 $x_0$ ,然后使用公式
$\bar{\mu } (x_t,x_0):=\frac{\sqrt{\bar{a}_{t-1}}\beta_t}{1-\bar{\alpha} _t} +\frac{\sqrt{\alpha _t}(1-\bar{\alpha }_{t-1} ) }{1-\bar{\alpha } _t}x_t$ 可以得到均值。
也可以使用网络预测 $\varepsilon$ ,然后使用

$x_t=\sqrt{\bar{\alpha}}_tx_0+(\sqrt{1-\bar{\alpha}}_t)I$

$\bar{\mu } (x_t,x_0):=\frac{\sqrt{\bar{a}_{t-1}}\beta_t}{1-\bar{\alpha} _t} +\frac{\sqrt{\alpha _t}(1-\bar{\alpha }_{t-1} ) }{1-\bar{\alpha } _t}x_t$ 去生成均值 $\bar{\mu } (x_t,x_0)$

目前这种方法是最好的，尤其是结合重新加权的损失函数

$L_{\text {simple }}=E_{t, x_{0}, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(x_{t}, t\right)\right\|^{2}\right]$

原本的lvb损失
$L_{\mathrm{vlb}} :=L_{0}+L_{1}+\ldots+L_{T-1}+L_{T}$
$L_{0} :=-\log p_{\theta}\left(x_{0} \mid x_{1}\right)$

$L_{t-1}:=D_{K L}(q\left(x_{t-1} \mid x_{t}, x_{0}\right)|| p_{\theta}(x_{t-1}|x_{t}))$
$L_{T} :=D_{K L}\left(q\left(x_{T} \mid x_{0}\right) \| p\left(x_{T}\right)\right)$

对数似然的改进

为研究不同流形上的作用，在image net64*64 上训练固定的模型结构使用固定的超参数。

不同的实验设置对比

方法	ho（2020）	our
损失函数及参数设置	$L_{simple}$ & $\sigma^2=\beta_t$ & $T = 10000$	$L_{\mathrm{hybrid}}=L_{\text {simple }}+\lambda L_{\mathrm{vlb}},\lambda = 0.001$
训练轮数	200k
T	1000	4000
数据集	image_net64*64
实验结果	3.99	3.77

学习 $\Sigma_{\theta}\left(x_{t}, t\right)$

在无限步长的扩散的过程条件下，方差的作用远没有均值对实验结果的影响大。或者说，方差几乎不发挥作用。
实验中，我们发现扩散过程前几步对整个扩散过程很重要。于是，通过使用更好的 $\Sigma_{\theta}\left(x_{t}, t\right)$ 可以很大程度上提高对数释然。
合理的 $\Sigma_{\theta}\left(x_{t}, t\right)$ 的范围很小，对于神经网络去寻找一个合理的 $\Sigma_{\theta}\left(x_{t}, t\right)$ 不是容易的，
我们发现更好的参数化 $\Sigma_{\theta}\left(x_{t}, t\right)$ 是差值 $\bar{\beta}_t$ 和 $\beta_t$ 在对数域。我们的模型输出 $v$ ,每个维度包含一个分量，然后将这个输出转换为如下方差：
$\Sigma_{\theta}\left(x_{t}, t\right)=\exp \left(v \log \beta_{t}+(1-v) \log \tilde{\beta}_{t}\right)$
${\color{Red}trick }$
stop- gradient

改善噪声机制

线性噪声机制对于高分辨率图像很好，在分辨率小的图像上结果次优。ddpm中的前向加噪过程对采样过程没有太大的贡献。

原本的加噪机制：

$q(x_{1}, \dots, x_{T} | x_{0}) :=\prod_{t=1}^{T} q\left(x_{t} \mid x_{t-1}\right)$

$q(x_{t}| x_{t-1}):=\mathcal{N}\left(x_{t} ; \sqrt{1-\beta_{t}} x_{t-1}, \beta_{t} \mathbf{I}\right)$

对任何时刻的加噪样本：

$\begin{aligned} q\left(x_{t} \mid x_{0}\right) &=\mathcal{N}\left(x_{t} ; \sqrt{\bar{\alpha}_{t}} x_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right) \\ x_{t} &=\sqrt{\bar{\alpha}_{t}} x_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon \end{aligned}$

加噪机制的改进：

$\bar{\alpha}_{t}=\frac{f(t)}{f(0)}, \quad f(t)=\cos \left(\frac{t / T+s}{1+s} \cdot \frac{\pi}{2}\right)^{2}$
其中：
$\beta_{t}=1-\frac{\bar{\alpha}_{t}}{\bar{\alpha}_{t-1}}$
- 为了防止开始时 $\beta_t,t=0$ 太小，使得网络在预测噪声的时候很困难。我们让 $\sqrt{\beta_0}$ =1/127.5=0.008。
- 在实际中使用 $cos^2$
- 不同的 $L_{vlb}$ 有不同边际。采样t均匀的会引起没必要的噪声在 $L_{vlb}$ 中。我们使用重要性采样：
  $L_{\mathrm{vlb}}=E_{t \sim p_{t}}\left[\frac{L_{t}}{p_{t}}\right] \text {, where } p_{t} \propto \sqrt{E\left[L_{t}^{2}\right]} \text { and } \sum p_{t}=1$ ,由于
  $E\left[L_{t}^{2}\right]$ 是未知的，可能在整个训练过程中发生变化。于是，我们的每个损失保持10个值的历史，并在训练期间动态更新。训练开始，我们均匀的采样十个样本， $\in[0, T-1]$ 。