【生成式AI】Diffusion Model 原理详解

最新推荐文章于 2024-07-22 21:21:48 发布

lvzelong2014

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量415

点赞数

分类专栏：计算机图形学文章标签：人工智能

本文链接：https://blog.csdn.net/lvzelong2014/article/details/132085216

版权

计算机图形学专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Diffusion Model

【碎碎念】感觉Diffusion Model里面的数学公式太多了QwQ，所以自己稍微梳理一下。
我自己是听B站的课程：李宏毅课程听懂的，感觉讲得很清楚

概念模型

请添加图片描述
Diffusion Model的基本思想就是：

把一张图片通过 $T$ step 添加高斯噪声，最后会形成一个高斯分布， $\mathcal N(0,\mathbf{I})$
把添加噪声的每步图片 $x_0\cdots x_T$ 看成随机过程，则形成一个马尔可夫链，每一步是已知的 $q(x_t|x_{t-1})$
设置一个Network，网络中的参数 $\theta$ 作为先验，如果能预测出逆过程 $p_\theta(x_{t-1}|x_t)$ ，就可以从噪声图片生成图片

算法流程

在这里插入图片描述

主算法流程如上图，解释以下大致思路：
训练部分：

Sample一张图片 $\mathbf{x}_0$
选择一个步骤 $t$
优化目标：Denoise网络，给定 $t$ 和 $t$ 步的噪图，能够预测 $t - 1$ 步到 $t$ 步添加的噪声长什么样子

推理部分：

Sample一张噪图
从 $T$ 步开始一步一步通过Denoise推理出真实图片

实际上上述只是一个非常粗略的解释，要真正理解这个算法，还有如下几个问题要解决：

如何生成 $t$ 步的噪图
形式化Denoise的优化目标

生成t步的噪图

每一步逐渐混入方差为 $\beta_i$ 的高斯噪声，得到下面的式子
$q(\mathbf{x}_t|\mathbf{x}_{t-1})=\mathcal N(\mathbf{x}_t;\sqrt{1-\beta_t} \mathbf{x}_{t-1},\beta_t \mathbf{I})$
用重参数化的写法是：
$\mathbf{x_t}=\sqrt{1-\beta_t}\mathbf{x}_{t-1}+\sqrt \beta_t \epsilon_t \\ \epsilon_t\sim\mathcal N(0,\mathbf{I})$

进一步推到

$\mathbf{x}_t=\sqrt {1 - \beta_t} \mathbf{x}_{t-1}+\sqrt {\beta_t} \epsilon_t \\ = \sqrt{1-\beta_t}(\sqrt{1-\beta_{t-1}}\mathbf{x}_{t-2}+\sqrt {\beta_{t-1}}\epsilon_{t-1})+\sqrt {\beta_t} \epsilon_t \\ =\sqrt{(1-\beta_t)(1-\beta_{t-1})}\mathbf{x}_{t-2}+\sqrt{1 - (1 - \beta_t)(1-\beta_{t-1})}\epsilon \\ =\cdots \\ = \sqrt{\alpha_t}\mathbf{x}_0+\sqrt{1-\alpha_t}\mathbf\epsilon,\\ \alpha_t=\prod_{i=1}^t 1-\beta_t$

这是根据高斯的可加性原理推导得出的结论。也就是，不需要一步步加，可以一次性推导到位。

优化目标

假设整体的 $T$ 步网络生成的概率分布是 $p_\theta$ ，那么其实优化的目标可以是：
$\max_\theta \mathbb{E}_{x_0\sim p_{data}(x_0)}[logp_\theta(\mathbf{x}_0)]$

这个优化目标可以解释为Sample所有数据集的图片，这些图片被 $p_\theta$ 生成的概率乘积最大（取了个log）

接下来其实利用了一个著名的VLB（变分下界）的定理，这个定理再VAE中使用过，具体的证明可以看视频，这里直接出结论：
$\log p_\theta(\mathbf{x}_0)\geq \mathbb E_{\mathbf{x}_1\cdots \mathbf{x}_T\sim q(\mathbf{x}_1\cdots \mathbf{x}_T|\mathbf{x}_0)}[\log \frac{p_\theta(\mathbf{x}_0\cdots \mathbf{x}_T)}{q(\mathbf{x_1}\cdots \mathbf{x}_T|\mathbf{x}_0)}]$

原论文经过了一番精彩的数学推导（注意，这段推导是取符号转化成最小化的Loss，所以符号要反着看）：
在这里插入图片描述

关于这段推导变换的精妙之处，先占个坑，暂时没想出来~
注意到 $p(\mathbf{x}_T)$ 就是变换到最后的噪声图，而 $q(\mathbf{x}_T|\mathbf{x}_0)$ 是一个固定的过程，这两者都和网络没关系，所以可以直接在优化项中舍去。

$q(\mathbf{x}_{t-1}|\mathbf{x}_t,\mathbf{x}_0)$ 的推导

$q(x_{t-1}|x_t,x_0)=\frac{q(x_{t-1},x_t,x_0)}{q(x_t,x_0)}=\frac{q(x_t|x_{t-1})q(x_{t-1}|x_0)q(x_0)}{q(x_t|x_0)q(x_0)}=\frac{q(x_t|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)}$
发现等式后面每项都是已知的，然后开始经过一番魔幻推导
在这里插入图片描述
结果就是还是一个高斯分布
梳理一下思路：我们现在有两个高斯分布 $q(x_{t-1}|x_t,x_0)$ ， $p_\theta(x_{t-1}|x_t)$ ，后者就是我们的降噪网络，我们的目标是让我们的降噪网络和 $q(x_{t-1}|x_t,x_0)$ 的分布尽量接近。
再进一步思考，实际上 $q(x_{t-1}|x_t,x_0)$ 的意思就是给定初始图片， $t\to t-1$ 这个逆过程的分布
而我们的网络是要生成一个降噪网络，这个优化目标告诉我们，需要在没有初始图片的情况下去拟合这个 $t\to t-1$
非常的合理，只不过使用了严谨的数学公式去推导了这个过程罢了。
关于最后一项，说是和VAE类似的处理方法，先占个坑，不解释