DDPM( Denoising Diffusion Probabilistic Model )

吊儿郎当的凡

已于 2022-10-26 09:52:54 修改

阅读量3.6k

点赞数 7

分类专栏：算法文章标签：深度学习人工智能神经网络机器学习

于 2022-07-20 16:01:31 首次发布

本文链接：https://blog.csdn.net/weixin_43269419/article/details/125830060

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Denoising Diffusion Probabilistic Models

Jonathan Ho, Ajay Jain, Pieter Abbeel
NeurIPS 2020

1 Background

在这里插入图片描述
Diffusion 模型为隐变量模型， $\bm{x}_1, ..., \bm{x}_T$ 为与原始数据 $\bm{x}_0 \sim q(\bm{x}_0)$ 维度一致的隐变量，所有隐变量之间满足马尔科夫性。已知 $p(\bm{x}_T) \sim \mathcal{N}(\bm{x}_T; \bm{0}, \bm{I})$ ，计算联合概率 $p_{\theta}(\bm{x}_{0:T})$ 称为 逆过程。
$p_{\theta}(\bm{x}_{0:T}) = p(\bm{x}_T) \prod_{t=1}^T p_{\theta}(\bm{x}_{t-1} | \bm{x}_t), \quad p_{\theta}(\bm{x}_{t-1} | \bm{x}_t) = \mathcal{N}(\bm{x}_{t-1}; \bm{\mu}_{\theta}(\bm{x}_t, t), \bm{\Sigma}_{\theta}(\bm{x}_t, t)) \tag{1}$

其中， $\bm{\mu}_{\theta}(\bm{x}_t, t)$ 和 $\bm{\Sigma}_{\theta}(\bm{x}_t, t)$ 为神经网络。
估计后验 $q(\bm{x}_{1:T} | \bm{x}_0)$ 称为 扩散过程。
$q(\bm{x}_{1:T} | \bm{x}_0) = \prod_{t=1}^T q(\bm{x}_t | \bm{x}_{t-1}), \quad q(\bm{x}_t | \bm{x}_{t-1}) = \mathcal{N}(\bm{x}_t; \sqrt{1 - \beta_t} \bm{x}_{t-1}, \beta_t \bm{I}) \tag{2}$

扩散过程可以看做，根据超参数 $\beta_t$ ，向数据中添加高斯噪声的过程。
下面介绍扩散过程的一个性质，定义 $\alpha_t = 1 - \beta_t, \bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ ，根据式 2 可得，
$\begin{aligned} \bm{x}_t &= \sqrt{\alpha_t} \bm{x}_{t-1} + \sqrt{\beta_t} \bm{\epsilon}_t \\ &= \sqrt{\alpha_t \alpha_{t-1}} \bm{x}_{t-2} + \sqrt{\alpha_t \beta_{t-1}} \bm{\epsilon}_{t-1} + \sqrt{\beta_t} \bm{\epsilon}_t \\ &= \sqrt{\alpha_t \alpha_{t-1} \alpha_{t-2}} \bm{x}_{t-3} + \sqrt{\alpha_t \alpha_{t-1} \beta_{t-2}} \bm{\epsilon}_{t-2} + \sqrt{\alpha_t \beta_{t-1}} \bm{\epsilon}_{t-1} + \sqrt{\beta_t} \bm{\epsilon}_t \\ &= ... \\ &= \sqrt{\bar{\alpha}_t} \bm{x}_0 + \sqrt{\alpha_t \alpha_{t-1} ... \alpha_2 \beta_1} \bm{\epsilon}_1 +... + \sqrt{\alpha_t \beta_{t-1}} \bm{\epsilon}_{t-1} + \sqrt{\beta_t} \bm{\epsilon}_t \end{aligned} \tag{3}$

其中，所有 $\bm{\epsilon}_t \sim \mathcal{N}(\bm{0}, \bm{I})$ 均为随机噪声，根据高斯噪声的叠加性可得，
$\begin{aligned} q(\bm{x}_t | \bm{x}_0) &= \mathcal{N}(\bm{x}_t; \sqrt{\bar{\alpha}_t} \bm{x}_0, (\alpha_t \alpha_{t-1} ... \alpha_2 \beta_1 + ... + \alpha_t \beta_{t-1} + \beta_t)\bm{I}) \\ &= \mathcal{N}(\bm{x}_t; \sqrt{\bar{\alpha}_t} \bm{x}_0, (1 - \bar{\alpha}_t)\bm{I}) \end{aligned} \tag{4}$

根据这条性质，我们可以从 $\bm{x}_0$ 直接采样 $\bm{x}_{t-1}$ ，无需中间步骤。

我们的目的为训练神经网络，使逆过程得到的 $p_{\theta}(\bm{x}_0)$ 尽可能与真实分布 $q(\bm{x}_0)$ 接近，即最小化KL散度。
$\begin{aligned} D_{KL}(q(\bm{x}_0) || p_{\theta}(\bm{x}_0)) &= \underbrace{\int q(\bm{x}_0)\log q(\bm{x}_0) d \bm{x}_0}_{constant} - \int q(\bm{x}_0)\log p_{\theta}(\bm{x}_0) d \bm{x}_0 \\ &= const - \int q(\bm{x}_0)\log p_{\theta}(\bm{x}_{0:T}) d \bm{x}_{0:T} \\ &= const \ - \int q(\bm{x}_0)\log \frac{q(\bm{x}_{1:T} | \bm{x}_0)}{q(\bm{x}_{1:T} | \bm{x}_0)} p_{\theta}(\bm{x}_{0:T}) d \bm{x}_{0:T} \\ &\le const \ - \int q(\bm{x}_{0:T}) \log \frac{p_{\theta}(\bm{x}_{0:T})}{q(\bm{x}_{1:T} | \bm{x}_0)} d \bm{x}_{0:T} \\ &= const \ + \mathbb{E}_q[- \log \frac{p_{\theta}(\bm{x}_{0:T})}{q(\bm{x}_{1:T} | \bm{x}_0)}] \\ &= const \ + \underbrace{\mathbb{E}_q[- \log p(\bm{x}_T) - \sum_{t \ge 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_t | \bm{x}_{t-1})}]}_L \end{aligned} \tag{5}$

由于 $q(\bm{x}_0)$ 为真实分布，所以第一项为常数，训练目标变为最小化 $L$ 。
$\begin{aligned} L &= \mathbb{E}_q[- \log p(\bm{x}_T) - \sum_{t > 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_t | \bm{x}_{t-1})} - \log \frac{p_{\theta}(\bm{x}_0 | \bm{x}_1)}{q(\bm{x}_1 | \bm{x}_0)}] \\ &= \mathbb{E}_q[- \log p(\bm{x}_T) - \sum_{t > 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_t | \bm{x}_{t-1}, \bm{x}_0)} - \log \frac{p_{\theta}(\bm{x}_0 | \bm{x}_1)}{q(\bm{x}_1 | \bm{x}_0)}] \\ &= \mathbb{E}_q[- \log p(\bm{x}_T) - \sum_{t > 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_{t-1} | \bm{x}_t, \bm{x}_0)} \frac{q(\bm{x}_{t-1} | \bm{x}_0)}{q(\bm{x}_t | \bm{x}_0)} - \log \frac{p_{\theta}(\bm{x}_0 | \bm{x}_1)}{q(\bm{x}_1 | \bm{x}_0)}] \\ &= \mathbb{E}_q[- \log p(\bm{x}_T) - \sum_{t > 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_{t-1} | \bm{x}_t, \bm{x}_0)} - \sum_{t > 1} \log \frac{q(\bm{x}_{t-1} | \bm{x}_0)}{q(\bm{x}_t | \bm{x}_0)} - \log \frac{p_{\theta}(\bm{x}_0 | \bm{x}_1)}{q(\bm{x}_1 | \bm{x}_0)}] \\ &= \mathbb{E}_q[- \log \frac{p(\bm{x}_T)}{q(\bm{x}_T | \bm{x}_0)} - \sum_{t > 1} \log \frac{p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)}{q(\bm{x}_{t-1} | \bm{x}_t, \bm{x}_0)} - \log p_{\theta}(\bm{x}_0 | \bm{x}_1)] \\ &= \mathbb{E}_q[\underbrace{D_{KL}(q(\bm{x}_T | \bm{x}_0) || p(\bm{x}_T))}_{L_T} + \sum_{t > 1} \underbrace{D_{KL}(q(\bm{x}_{t-1} | \bm{x}_t, \bm{x}_0) || p_{\theta}(\bm{x}_{t-1} | \bm{x}_t))}_{L_{t-1}} \underbrace{- \log p_{\theta}(\bm{x}_0 | \bm{x}_1)}_{L_0}] \end{aligned} \tag{6}$

2 Diffusion models and denoising autoencoders

2.1 Forward process and $L_T$

由于 $q(\bm{x}_T | \bm{x}_0)$ 和 $p(\bm{x}_T)$ 均为正态分布，所以 $L_T=0$ 。

2.2 Reverse process and $L_{1:T-1}$

$L_{t-1}$ 中， $q(\bm{x}_{t-1} | \bm{x}_t, \bm{x}_0) = \mathcal{N}(\bm{x}_{t-1}; \widetilde{\bm{\mu}}_t(\bm{x}_t, \bm{x}_0), \widetilde{\bm{\beta}}_t \bm{I})$ ，证明如下图所示。图源：54、Diffusion Model扩散模型理论与完整PyTorch代码详细解读。
在这里插入图片描述
本文作者将 $p_{\theta}(\bm{x}_{t-1} | \bm{x}_t)$ 中的 $\bm{\Sigma}_{\theta}(\bm{x}_t, t)$ 替换为 $\sigma_t^2$ ， $\sigma_t^2$ 取 $\beta_t$ 或 $\widetilde{\beta}_t$ ，取得了相似的效果。
由于 $D_{KL}(\mathcal{N}(\mu_1, \sigma_1^2) || \mathcal{N}(\mu_2, \sigma_2^2)) = \frac{(\mu_1 - \mu_2)^2 + \sigma_1^2}{2 \sigma_2^2} + \log \frac{\sigma_2}{\sigma_1} - \frac{1}{2}$ ，所以，
$\begin{aligned} L_{t-1} &= \mathbb{E}_q[\frac{1}{2\sigma_t^2} \| \widetilde{\bm{\mu}}_t(\bm{x}_t, \bm{x}_0) - \bm{\mu}_{\theta}(\bm{x}_t, t) \|^2] + C \\ &= \mathbb{E}_q[\frac{1}{2\sigma_t^2} \| \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha_t}} \bm{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha_t}} \bm{x}_0 - \bm{\mu}_{\theta}(\bm{x}_t, t) \|^2] + C \\ &= \mathbb{E}_{\bm{x}_0, \bm{\epsilon}}[\frac{1}{2\sigma_t^2} \| \frac{1}{\sqrt{\alpha_t}} \big( \bm{x}_t(\bm{x}_0, \bm{\epsilon}) - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}}\bm{\epsilon} \big) - \bm{\mu}_{\theta} \big( \bm{x}_t(\bm{x}_0, \bm{\epsilon}), t \big) \|^2] + C \tag{7} \end{aligned}$

其中， $\bm{x}_t(\bm{x}_0, \bm{\epsilon}) = \sqrt{\bar{\alpha}_t}\bm{x}_0 + \sqrt{1 - \bar{\alpha}_t} \bm{\epsilon}$ ， $\bm{\epsilon}$ 为由 $\bm{x}_0$ 采样 $\bm{x}_t$ 时引入的高斯噪声，C 为常数。
根据式 7 ，可以将神经网络 $\bm{\mu}_{\theta}$ 的形式变为，
$\bm{\mu}_{\theta}(\bm{x}_t, t) = \frac{1}{\sqrt{\alpha_t}} \big( \bm{x}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}}\bm{\epsilon}_{\theta}(\bm{x}_t, t) \big) \tag{8}$

损失 $L_{t-1}$ 就变为，
$\mathbb{E}_{\bm{x}_0, \bm{\epsilon}}[\frac{\beta_t^2}{2 \sigma_t^2 \alpha_t (1 - \bar{\alpha}_t)} \| \bm{\epsilon} - \bm{\epsilon}_{\theta} \big( \bm{x}_t(\bm{x}_0, \bm{\epsilon}), t \big) \|^2] + C \tag{9}$

2.3 Reverse process and $L_0$

原文中作者根据图像的性质做出了一些变化，本文在此进行忽略。
根据式 1 可知，
$p_{\theta}(\bm{x}_0 | \bm{x}_1) = \mathcal{N}(\bm{x}_0; \bm{\mu}_{\theta}(\bm{x}_1, 1), \sigma_1^2 \bm{I}) \tag{10}$

所以，
$L_0 = \frac{1}{2 \sigma_1^2} \mathbb{E}_{\bm{x}_0, \bar{\bm{\epsilon}}_1} [\| \bm{x}_0 - \bm{\mu}_{\theta} \big(\bm{x}_1(\bm{x}_0, \bar{\bm{\epsilon}}_1), 1 \big) \|^2] + C' \tag{11}$

其中， $C^{'}$ 为常数。

2.4 Simplified training objective

作者发现，将损失 $L$ 简化为 $L_{simple}$ ，能提高模型的效果。
$L_{simple}(\theta) = \mathbb{E}_{t, \bm{x}_0, \bm{\epsilon}}[ \| \bm{\epsilon} - \bm{\epsilon}_{\theta} \big( \bm{x}_t(\bm{x}_0, \bm{\epsilon}), t \big) \|^2]$