Improved-DDPM

最新推荐文章于 2024-07-08 14:33:11 发布

发呆的比目鱼

最新推荐文章于 2024-07-08 14:33:11 发布

阅读量635

点赞数 1

分类专栏：生成模型文章标签：机器学习人工智能

原文链接：https://zhuanlan.zhihu.com/p/602222222

版权

11 篇文章 2 订阅

订阅专栏

paper: https://arxiv.org/pdf/2102.09672.pdf
github: https://github.com/openai/improved-diffusion

DDPM 训练出来的扩散模型虽然其生成效果不错, 但由于对数似然相比于 GAN 等模型不够好, 因此其生成的多样性也会打一个折扣,

Improved DDPM做了如下改动

学习 $\Sigma_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, t\right)$
DDPM 的 $\sigma_t^2$ 是固定的，并且探讨了 $\sigma_t^2$ 取两种极端情况 $\sigma_t^2=\beta_t$ 和 $\sigma_t^2=\tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \beta_t$ 下的模型表现差不多.
因此提出学习一组方差:
$\Sigma_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, t\right)=\exp \left(v \log \beta_t+(1-v) \log \tilde{\beta}_t\right)$
采用混合损失：
$L_{\mathrm{hybrid}}=L_{\mathrm{simple}}+\lambda L_{\mathrm{vlb}}$
其中 $L_{\mathrm{vlb}}$ 就是未简化版的变分下界损失, $\lambda=0.001$ 保证 vlb 损失的影响不要太大影响了 simple 损失.
余弦加噪
Improved DDPM 提出了余弦方案 (cosine schedule):
$\beta_t=\min \left(1-\frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}, 0.999\right), \quad \bar{\alpha}_t=\frac{f(t)}{f(0)}, \quad f(t)=\cos \left(\frac{t / T+s}{1+s} \cdot \frac{\pi}{2}\right)^2$
降低梯度噪声
为时间步 t均匀采样导致的梯度噪声大, 所以提出了时间步重要性采样的方法:
$L_{\mathrm{vlb}}=E_{t \sim p_t}\left[\frac{L_t}{p_t}\right], \quad p_t \propto \sqrt{E\left[L_t^2\right]}, \quad \sum p_t=1$
保存每个时间步前 10 次的损失求平均来估计, 这样损失越大的时间步采样频率越低, 从而整体上可以保证损失的稳定性.