扩散模型Diffusion model | DDPM

rookiexiong

已于 2023-11-11 20:34:26 修改

阅读量109

点赞数 1

文章标签：机器学习人工智能

于 2023-11-11 19:44:08 首次发布

本文链接：https://blog.csdn.net/m0_62249876/article/details/134351979

版权

扩散模型Diffusion model | DDPM

论文原文：Denoising Diffusion Probabilistic Model

前言—和VAE的联系

DDPM实际上是VAE而不是扩散模型

多步扩散

DDPM将VAE的编码过程和生成过程分解为T步，每一个 $p(x_{t}|x_{t−1})$ 和 $q(x_{t−1}|x_{t})$ 仅负责建模一个微小变化，它们依然建模为正态分布。

对于微小变化来说，可以用正态分布足够近似地建模(高斯混合模型的思想)，类似于曲线在小范围内可以用直线近似，多步分解就有点像用分段线性函数拟合复杂曲线，因此理论上可以突破传统单步VAE的拟合能力限制。

编码能力

DDPM是放弃了模型的编码能力，最终只得到一个纯粹的生成模型

核心推导步骤

引入了一个 $q(x_{t−1}|x_{t},x_{0})$ 来进行裂项相消，然后转化为正态分布的KL散度形式。

而后用 $p_{\theta}(x_{t−1}|x_{t})$ 来近似 $q(x_{t−1}|x_{t},x_{0})$ 从而极大似然 $p_{\theta}(x_{0})$

模型推导

在这里插入图片描述

前向过程

给定一个从真实数据分布 $x_{0}\sim q(x)$ 中采样的数据点，前向扩散过程中分 $T$ 步向样本中加入少量高斯噪声，产生一系列带噪声的样本 $x_{0},...,x_{T}$ 。加入噪声的均值和方差由控制。即
$\boldsymbol{x}_t=\alpha_t\boldsymbol{x}_{t-1}+\beta_t\boldsymbol{\varepsilon}_t,\quad\boldsymbol{\varepsilon}_t\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$
其中有 $\alpha_t,\beta_t>0$ 且 $\alpha_t^2+\beta_t^2=1$ (方便下述正态分布相加计算)， $\beta_t$ 通常很接近于0.

反向过程

如果我们可以反转上述过程并从 $q(x_{t-1}│x_{t} )$ 中采样，我们将能够从高斯噪声输入 $\boldsymbol{x}_T\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$ 中重建真实样本。由 $\boldsymbol{x}_t=\alpha_t\boldsymbol{x}_{t-1}+\beta_t\boldsymbol{\varepsilon}_t$ 可知， $\boldsymbol{x}_{t-1}=\frac1{\alpha_t}(\boldsymbol{x}_t-\beta_t\boldsymbol{\varepsilon}_t)$ ，由于此过程难以直接计算，可以用神经网络模拟为
$\boldsymbol{\mu}(\boldsymbol{x}_t)=\frac1{\alpha_t}(\boldsymbol{x}_t-\beta_t\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t))$
那么我们的损失函数可以理解为(考虑了扩散过程中的时间因素)：
$\left\|\boldsymbol{x}_{t-1}-\boldsymbol{\mu}(\boldsymbol{x}_t)\right\|^2=\frac{\beta_t^2}{\alpha_t^2}\left\|\boldsymbol{\varepsilon}_t-\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t)\right\|^2$
忽略前面系数，带入之前的 ${x}_{t}$ ，得到
$\left\|\varepsilon_t-\epsilon_\theta(\bar{\alpha}_t\boldsymbol{x}_0+\alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1}+\beta_t\boldsymbol{\varepsilon}_t,t)\right\|^2$

这里选择回退一步到 $x_{t-1}$ 来给出 $x_{t}$ ，因为我们已经事先采样了 $\varepsilon_t$ ，而 $\varepsilon_t$ 跟 $\bar{\varepsilon}_{t}$ 不是相互独立的，所以给定 $\varepsilon_t$ 的情况下，我们不能完全独立地采样 $\bar{\varepsilon}_{t}$

损失

上述损失函数实际上包含了4个需要采样的随机变量，要采样的随机变量越多，就越难对损失函数做准确的估计。可以通过一个积分技巧来将 $\varepsilon_t$ 跟 $\bar{\varepsilon}_{t-1}$ 合并成单个正态随机变量
大致就是去构造两个独立的方程式去解方程：
$\alpha_t\bar{\beta}_{t-1}\boldsymbol{\bar{\varepsilon}}_{t-1}+\beta_t\boldsymbol{\varepsilon}_t ={{\beta}}_{t}\boldsymbol{\varepsilon}|\boldsymbol{\varepsilon}\sim\mathcal{N}(\mathbf{0},\boldsymbol{I})，\beta_t\bar{\boldsymbol{\varepsilon}}_{t-1}-\alpha_t\bar{\boldsymbol{\beta}}_{t-1}\boldsymbol{\varepsilon}_t = \bar{\beta}_t\boldsymbol{\omega}|\boldsymbol{\omega}\sim\mathcal{N}(\mathbf{0},\boldsymbol{I})$

解出来代回去即可得到DDPM最终用的损失函数：
$\left\|\varepsilon-\frac{\bar{\beta}_t}{\beta_t}\epsilon_\theta(\bar{\alpha}_t\boldsymbol{x}_0+\bar{\beta}_t\boldsymbol{\varepsilon},t)\right\|^2$

变分下界

在这里插入图片描述

推理生成

训练完之后，我们就可以从一个随机噪声 $\boldsymbol{x}_T\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$ 出发反向传播 $T$ 步来进行生成。同时需要进行随机采样，那么需要补上噪声项。
$\boldsymbol{x}_{t-1}=\frac1{\alpha_t}(\boldsymbol{x}_t-\beta_t\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t))+\sigma_t\boldsymbol{z},\quad\boldsymbol{z}\sim\mathcal{N}(\mathbf{0},\boldsymbol{I})$