【学习笔记】文生图模型——三、VAE原理篇

最新推荐文章于 2025-03-14 10:47:59 发布

HanYMR

最新推荐文章于 2025-03-14 10:47:59 发布

阅读量2.9k

点赞数 47

文章标签：学习笔记

本文链接：https://blog.csdn.net/HanYMR/article/details/136654575

版权

记录：学习stable diffusion模型原理，需要学习VAE、CLIP、Diffusion、Unet、Transformer

一、VAE：

（图源来自原论文和李宏毅老师的视频）

1.流程图示

观测数据X输入到MLP编码器里(图中绿色NN)，输出隐向量z（多元高斯分布）的每一个维度的期望m和方差 $\sigma$ ，通过与采样自标准正态的噪音 $e$ 运算之后，输入到MLP解码器里(图中蓝色NN)，解码器会输出条件概率分布 $p_\theta (x|z)$ 的参数，并利用这些参数采样还原数据X。

2.模型开始

李老师的视频里介绍了一维高斯混合模型，原理是多个正态分布可以叠加成为任一分布。P(x)是数据x的分布概率，而z上任取一点就代表其中一条蓝色的高斯分布，取遍z上所有的点就可以模拟出x的分布。

论文给出的图解

$X=\left \{ x^{(i)} \right \}_{i=1}^{N}$ 是独立同分布的样本数据集， $z=\left \{ z^{(i)} \right \}$ 是生成的连续随机隐变量。

假设数据是由z随机生成的，该过程包括两个步骤：

(1) 从先验分布 $p_\theta (z)$ 中生成一个值 $z^{(i)}$ ；

(2) 从条件分布 $p_\theta (x|z)$ 中生成一个值 $x^{(i)}$ ；

先验分布： $p_\theta (z|x)$ ，由于难以计算，用 $q_\phi (z|x)$ 近似表示（变分法）。 $\phi$ 和 $\theta$ 会在训练时一起学习。 $q_\phi (z|x)$ 指编码器。负责将输入的数据映射到隐空间中。

后验分布： $p_\theta (x|z)$ 。 $p_\theta (x|z)$ 指解码器。负责从隐空间中采样，重构出原始的数据。

但真实参数 $\theta^*$ 以及潜在变量 $z^{(i)}$ 的值都是隐藏的。于是论文开始探索解决之法。

3.目标函数

$\max \limits_{\theta}\{log\prod_{i=1}^{n}p_\theta (x^{(i)})\}=\max \limits_{\theta}\sum_{i=1}^{n}logp_\theta (x^{(i)})$

化简过程：（手推了一下） $\max \limits_{\theta}\sum_{i=1}^{n}logp_\theta (x^{(i)})=\max \limits_{\theta}\int_{z}^{}q_\phi (z|x^{(i)})logp_\theta (x^{(i)})dz$ $=\max \limits_{\theta}\int_{z}^{}q_\phi (z|x^{(i)})log\frac{ p_{\theta}(z,x^{(i)})}{p_{\theta}(z|x^{(i)})}dz$ $=\max \limits_{\theta}D_{KL}(q_\phi(z|x^{(i)})||p_{\theta}(z|x^{(i)}))+\int_{z}^{}q_\phi (z|x^{(i)})log\frac{ p_{\theta}(z,x^{(i)})}{q_\phi(z|x^{(i)})}dz$

原文中用 $\pounds(\theta ,\phi ;x^{(i)})$ 代替第二项，写作：

4.目标函数结果分析

第一项KL散度是近似分布与真实分布的一致性，因为这一项非负，所以我们需要求满足下界 $\pounds(\theta ,\phi ;x^{(i)})=\int_{z}^{}q_\phi (z|x^{(i)})log\frac{ p_{\theta}(z,x^{(i)})}{q_\phi(z|x^{(i)})}dz$ 取最大值时的参数 $\theta$ 和 $\phi$ ，这时会影响 $D_{KL}$ 越来越小，也就是能找到与真实分布非常相近的的近似分布。

对于第二项，原文中运算过程：

于是需要找到 $\min \limits_{\theta}D_{KL}(q_\phi(z|x^{(i)})||p_{\theta}(z))$ 和 $\max \limits_{\theta}\int_{z}^{}q_\phi (z|x^{(i)})logp_\theta(x|z)dz=E_{q_\phi (z|x^{(i)})}log[p_\theta (x^{(i)}|z)]$

继续分析

①对于 $\min \limits_{\theta}D_{KL}(q_\phi(z|x^{(i)})||p_{\theta}(z))$ ，就是要调MLP编码器里(图中绿色NN)的参数，使它产生的z的分布能接近 $N(z;0,I)$

②对于 $\max \limits_{\theta}\int_{z}^{}q_\phi (z|x^{(i)})logp_\theta(x|z)dz=E_{q_\phi (z|x^{(i)})}log[p_\theta (x^{(i)}|z)]$ ，在①的条件下，只需要调整MLP解码器里(图中蓝色NN)的参数，使它产生的x的分布期望接近于样本x，也就是说使生成的x接近于输入的x。