深度学习（生成式模型）——Classifier Guidance Diffusion

菜到怀疑人生

已于 2024-04-07 11:15:06 修改

阅读量1.4k

点赞数 6

分类专栏：深度学习文章标签：深度学习人工智能 AIGC aigc

于 2023-11-09 15:26:02 首次发布

本文链接：https://blog.csdn.net/dhaiuda/article/details/134143038

版权

深度学习专栏收录该内容

58 篇文章 30 订阅

订阅专栏

文章目录

前言
问题建模
条件扩散模型的前向过程
条件扩散模型的反向过程
条件扩散模型的训练目标

前言

几乎所有的生成式模型，发展到后期都需要引入"控制"的概念，可控制的生成式模型才能更好应用于实际场景。本文将总结《Diffusion Models Beat GANs on Image Synthesis》中提出的Classifier Guidance Diffusion（即条件扩散模型），其往Diffusion Model中引入了控制的概念，可以控制DDPM、DDIM生成指定类别（条件）的图片。

问题建模

本章节所有符号定义与DDPM一致，在条件 $y$ 下的Diffusion Model的前向与反向过程可以定义为
$\begin{aligned} \hat q(x_{t+1}|x_{t},y)\\ \hat q(x_t|x_{t+1},y) \end{aligned}$
只要求出上述两个概率密度函数，我们即可按条件生成图像。

我们利用 $\hat q$ 表示条件扩散模型的概率密度函数， $q$ 表示扩散模型的概率密度函数。

条件扩散模型的前向过程

对于前向过程，作者定义了以下等式
$\begin{aligned} \hat q(x_0)&=q(x_0)\\ \hat q(x_{t+1}|x_t,y)&=q(x_{t+1}|x_t)\\ \hat q(x_{1:T}|x_0,y)&=\prod_{t=1}^T\hat q(x_t|x_{t-1},y) \end{aligned}$

基于上述第二行定义，可知基于条件 $y$ 的diffusion model的前向过程与普通的diffusion model一致，即 $\hat q(x_{t+1}|x_t)=q(x_{t+1}|x_t)$ 。即加噪过程与条件 $y$ 无关，这种定义也是合理的。

条件扩散模型的反向过程

对于反向过程，我们有
$\begin{aligned} \hat q(x_t|x_{t+1},y)&=\frac{\hat q(x_t,x_{t+1},y)}{\hat q(x_{t+1},y)}\\ &=\frac{\hat q(x_t,x_{t+1},y)}{\hat q(y|x_{t+1})\hat q(x_{t+1})}\\ &=\frac{\hat q(x_t,y|x_{t+1})}{\hat q(y|x_{t+1})}\\ &=\frac{\hat q(y|x_t,x_{t+1})\hat q(x_{t}|x_{t+1})}{\hat q(y|x_{t+1})} \end{aligned}\tag{1.0}$

已知条件扩散模型的前向过程与扩散模型一致，则有

$\hat q(x_{1:T}|x_0)=q(x_{1:T}|x_0)$

进而有
$\begin{aligned} \hat q(x_{t})&=\int \hat q(x_0,...,x_t) dx_{0:t-1}\\ &=\int \hat q(x_0)\hat q(x_{1:t}|x_0)dx_{0:t-1}\\ &=\int q(x_0)q(x_{1:t}|x_0)dx_{0:t-1}\\ &=q(x_t) \end{aligned}$

对于 $\hat q(x_t|x_{t+1})$ ，则有
$\begin{aligned} \hat q(x_t|x_{t+1})&=\frac{\hat q(x_t,x_{t+1})}{\hat q(x_{t+1})}\\ &=\frac{\hat q(x_{t+1}|x_t)\hat q(x_{t})}{\hat q(x_{t+1})}\\ &=\frac{q(x_{t+1}|x_t)q(x_{t})}{q(x_{t+1})}\\ &=q(x_{t}|x_{t+1}) \end{aligned}$

对于 $\hat q(y|x_t,x_{x_{t+1}})$ ，我们有
$\begin{aligned} \hat q(y|x_t,x_{x_{t+1}})&=\frac{\hat q(x_{t+1}|x_t,y)\hat q(y|x_t)}{\hat q(x_{t+1}|x_t)}\\ &=\frac{\hat q(x_{t+1}|x_t)\hat q(y|x_t)}{\hat q(x_{t+1}|x_t)}\\ &=\hat q(y|x_t) \end{aligned}$

因此式1.0为

$\begin{aligned} \hat q(x_t|x_{t+1},y)&=\frac{\hat q(y|x_t,x_{t+1})\hat q(x_{t}|x_{t+1})}{\hat q(y|x_{t+1})}\\ &=\frac{\hat q(y|x_t)q(x_{t}|x_{t+1})}{\hat q(y|x_{t+1})} \end{aligned}$

由于在反向过程中， $x_{t+1}$ 是已知的，因此 $\hat q(y|x_{t+1})$ 也可看成已知值，设其倒数为 $Z$ ，则有

$\begin{aligned} \hat q(x_t|x_{t+1},y) = Z\hat q(y|x_t)q(x_{t}|x_{t+1}) \end{aligned}$

取log可得
$\begin{aligned} \log \hat q(x_{t}|x_{t+1},y)=\log Z+\log \hat q(y|x_t)+\log \hat q(x_t|x_{t+1})\tag{1.1} \end{aligned}$

设 $\hat q(x_t|x_{t+1})=\mathcal N(\mu_t,\sum_t^2)$ ，则有
$\log \hat q(x_{t}|x_{t+1})=-\frac{1}{2}(x_t-\mu_t)^T({\sum}_t)^{-1}(x_t-\mu_t)+C\tag{1.2}$

对于 $\log \hat q(y|x_t)$ ，在 $x_t=\mu_t$ 处做泰勒展开，则有

$\begin{aligned} \log \hat q(y|x_t) &\approx \log \hat q(y|x_t)|_{x_t=\mu_t}+(x_t-\mu_t)\nabla_{x_t}\log\hat q(y|x_t)|_{x_t=\mu_t}\\ &=C_1+(x_t-\mu_t)g \end{aligned}\tag{1.3}$
其中 $g=\nabla_{x_t}\log\hat q(y|x_t)|_{x_t=\mu_t}$ ，结合式1.1、1.2、1.3，有

$\begin{aligned} \log \hat q(x_{t}|x_{t+1},y)&\approx C_1+(x_t-\mu_t)g+\log Z-\frac{1}{2}(x_t-\mu_t)^T(\sum{_t})^{-1}(x_t-\mu_t)+C\\ &=(x_t-\mu_t)g-\frac{1}{2}(x_t-\mu_t)^T(\sum{_t})^{-1}(x_t-\mu_t)+C_2\\ &=-\frac{1}{2}(x_t-\mu_t-\sum{_t} g)^T(\sum{_t})^{-1}(x_t-\mu_t-\sum{_t}g)+C_3 \end{aligned}$

最终有

$\begin{aligned} \hat q(x_t|x_{t+1},y)\approx \mathcal N(\mu_t+{\sum}_{t}g,({\sum}_t)^2)\\ g=\nabla_{x_t}\log\hat q(y|x_t)|_{x_t=\mu_t} \end{aligned}\tag{1.4}$

为了获得 $\nabla_{x_t}\log\hat q(y|x_t)$ ，Classifier Guidance Diffusion在训练好的Diffusion model的基础上额外训练了一个分类头。

假设 $x_t \approx\mu_t$ ，则Classifier Guidance Diffusion的反向过程为:
在这里插入图片描述

其中 $p_ \phi(y|x_t)=\hat q(y|x_t)$ ， $s$ 为一个超参数。

式1.4有个问题，当方差 $\sum$ 取值为0时， ${\sum}\nabla_{x_t}\log\hat q(y|x_t)$ 取值将为0，无法控制生成指定条件的图像。因此式1.4不适用于DDIM等确定性采样的扩散模型。

在推导DDIM的采样公式前，我们先了解一下用Tweedie方法做参数估计的流程。

Tweedie方法主要用于指数族概率分布的参数估计，而高斯分布属于指数族概率分布，自然也适用。假设有一批样本 $z$ ，则利用样本 $z$ 估计高斯分布 $\mathcal N(Z;\mu,{\sum}^2)$ 的均值 $\mu$ 的公式为

$E[\mu|z]=z+{\sum}^2\nabla_z\log p(z)\tag{1.5}$

已知DDPM、DDIM的前向过程有

$q(x_t|x_0)=\mathcal N(x_t;\sqrt{\bar \alpha_t}x_0,(1-\bar\alpha_t)\mathcal I)\tag{1.6}$

结合式1.5、1.6可得

$\begin{aligned} \sqrt{\bar \alpha_t}x_0=x_t+(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t) \end{aligned}$
进而有
$x_t=\sqrt{\bar \alpha_t}x_0-(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t)\tag{1.7}$
设 $\epsilon_t$ 服从标准正态分布，则从式1.6可知

$x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_t\tag{1.8}$

结合式1.7、1.8，则有

$\nabla_{x_t}\log p(x_t)=-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon_t\tag{1.9}$

已知DDIM的采样公式为

$x_{t-1}=\sqrt{\bar \alpha_{t-1}}\frac{x_t-\sqrt{1-\bar \alpha_t}\epsilon_\theta(x_t)}{\sqrt{\bar\alpha_t}}+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_\theta(x_t)\tag{2.0}$

结合式1.9、2.0可将DDIM的采样公式转变为

$x_{t-1}=\sqrt{\bar \alpha_{t-1}}\frac{x_t-\sqrt{1-\bar \alpha_t}(-\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(x_t))}{\sqrt{\bar\alpha_t}}+\sqrt{1-\bar\alpha_{t}-\delta_t^2}(-\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(x_t))\tag{2.1}$

我们只需要将其中的 $\nabla_{x_t}\log p(x_t)$ 替换为 $\nabla_{x_t}\log p(x_t|y)$ ，即可引入条件 $y$ 来控制DDIM的生成过程，利用贝叶斯定理，我们有

$\begin{aligned} \log p(x_t|y)&=\log p(y|x_t)+\log p(x_t)-\log p(y)\\ \nabla_{x_t}\log p(x_t|y)&=\nabla_{x_t}\log p(y|x_t)+\nabla_{x_t}\log p(x_t)-\nabla_{x_t}\log p(y)\\ &=\nabla_{x_t}\log p(y|x_t)+\nabla_{x_t}\log p(x_t)\\ &=\nabla_{x_t}\log p(y|x_t)-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon_t \end{aligned}\tag{2.2}$
则有

$-\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(x_t|y)=\epsilon_t-\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(y|x_t)\tag{2.3}$

至此，我们可以得到DDIM的采样流程为
在这里插入图片描述
对于DDIM等确定性采样的扩散模型，其应在训练好的Diffusion model的基础上额外训练了一个分类头，从而转变为Classifier Guidance Diffusion。

条件扩散模型的训练目标

注意到 $\hat q(x_t|x_{t+1})=q(x_t|x_{t+1})$ ，并且上述的推导过程并没有改变 $q(x_t|x_{t+1})、q(x_{t+1}|x_t)$ 的形式，因此Classifier Guidance Diffusion的训练目标与DDPM、DDIM是一致的，都可以拟合训练数据。

菜到怀疑人生

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
深度学习（生成式模型）——Classifier Guidance Diffusion

文章目录前言问题建模条件扩散模型的前向过程条件扩散模型的反向过程条件扩散模型的训练目标前言几乎所有的生成式模型，发展到后期都需要引入"控制"的概念，可控制的生成式模型才能更好应用于实际场景。本文将总结《Diffusion Models Beat GANs on Image Synthesis》中提出的Classifier Guidance Diffusion（即条件扩散模型），其往Diffusion Model中引入了控制的概念，可以控制DDPM、DDIM生成指定类别（条件）的图片。问题建模本章节所
复制链接

扫一扫