VAE 总结整理

最新推荐文章于 2024-04-11 11:12:48 发布

崔克西

最新推荐文章于 2024-04-11 11:12:48 发布

阅读量972

点赞数 2

分类专栏：计算方法文章标签：人工智能

本文链接：https://blog.csdn.net/Suzumiya_Terix/article/details/118061377

版权

VAE 总结整理

原始VAE介绍

VAE是一种生成模型，通过隐变量z生成目标数据X。核心是希望训练一种模型，可以将某个概率分布映射到训练集的概率分布。

所以核心在于：

1）隐变量的概率分布如何选择

2）如何衡量生成的概率分布与已有的概率分布之间的差异

3）如何将这种差异用于调整网络参数

变量列表

变量名	含义
$\mathcal X$	数据点，数据点所属空间
$D a t e$	数据集， $X$ 是从 $D a t a$ 中采样得到的
$P (*)$	变量 $*$ 的概率
$p (*)$	变量 $*$ 的概率密度函数
$z,\mathcal Z$	隐变量，隐变量所属空间
$f (*)$	神经网络
$q (z)$	更容易产生X的z空间对应的概率密度函数
$\theta,\mathcal \Theta$	网络参数，参数空间
$\mu$	均值
$\sigma$	标准差
$\epsilon$	参数重整化技巧用到的变量， $\epsilon \sim \mathcal N(0,I)$
$\mathcal D$	KL散度

网络思想

在生成模型中，需要一个隐变量指导网络生成对象。比如，在生成0~9的手写字符时，先决定生成哪一个数字，再进行生成，也就是有一个映射 $f:\mathcal Z × \mathcal \Theta \rightarrow \mathcal X$ 。如果在 $\mathcal Z$ 上随机采样，随机变量是 $z$ ，概率密度函数是 $p (z)$ ，根据全概率公式：
$p(X)=\int p(X|z;\theta)p(z)dz$
也就是希望生成 $X$ 的概率最大。在VAE中，一般假定输出满足正态分布，即 $X=f(z;\theta) \sim \mathcal N(f(z;\theta),\sigma^2I)$

编码器

为了求解（1）中的积分，需要处理两个问题：如何定义 $z$ ，如何在 $z$ 上积分。

问题1：如何定义z

假定 $z$ 并不能直接解释，但是可以从一个简单的分布中提取，比如正态分布 $\mathcal N(0,I)$ ，因为只要有一个足够复杂的映射，比如神经网络 $f(z;\theta)$ ，d维的正态分布可以变为d维中的任意分布。

问题2：如何求解积分(1)

首先从因空间中提取足够多的 $z=\{z_1,z_2,...z_n\}$ ，再计算 $\approx \frac {1}{n}\sum\limits_{i=1}^{n}p(X|z_i)$ ，

但是这带来了新的问题：

1）为了成功估计p(x)，n值要取很大，很多的z对于X的生成不起作用；

2）由于假定X满足高斯分布，其实也就是 $Aexp\{-\frac {||X-f(z;\theta)||^2}{2\sigma^2}\}$ ，核心是一个平方距离 $||X-f(z;\theta)||^2$ ，也就导致不那么像X的生成结果反而得分比较高：

在这里插入图片描述

为了避免以上的问题，VAE将重心放在对X生成贡献大的z上。

采用一个新的分布 $q (z ∣ X) \in Q$ ，显然 $Q\subsetneqq\mathcal Z$ ，计算 $E_{z\sim Q}p(X|z)$ 就很容易， $q$ 不是标准正态分布。首先将 $E_{z\sim Q}p(X|z)$ 与 $p (X)$ 联系起来。从KL散度入手：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \mathcal D[q(z…$
移项，得
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ logp(X)-\mathc…$
观察这个等式，左边是我们的优化目标：

1） $l o g p (X)$ 要尽可能大，越大说明我们从z生成X的效果越好；

2） $\mathcal D[q(z)||p(z|X)]$ 要尽可能小，越小说明 $q$ 与 $p$ 越接近，也就是说明我们 $Q$ 空间接近可以产生X的 $\mathcal Z$ 空间部分；

3） $p (X ∣ z)]$ 充当了解码器，将z映射到X；

4） $q (z ∣ X)$ 充当了编码器，将X映射到z；

损失函数

第一项： $l o g p (X ∣ z)$

由于我们假设 $X=f(z;\theta) \sim \mathcal N(f(z;\theta),\sigma^2I)$ ，所以取了对数以后，直接看分子的平方项即可，其余都是常数。那么也就是 $E_{z\sim Q}[\frac{1}{n\sigma^2}||X-f(z;\theta)||^2]$

第二项： $\mathcal D[q(z|X)||p(z)]$

假设 $\mathcal N(\mu(X),\Sigma(X))$ ，那么计算两个正态分布的KL散度即可。

首先看一般的：

最低0.47元/天解锁文章

崔克西

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
VAE 总结整理

VAE 总结整理原始VAE介绍VAE是一种生成模型，通过隐变量z生成目标数据X。核心是希望训练一种模型，可以将某个概率分布映射到训练集的概率分布。所以核心在于：1）隐变量的概率分布如何选择2）如何衡量生成的概率分布与已有的概率分布之间的差异3）如何将这种差异用于调整网络参数变量列表变量名含义X,XX, \mathcal XX,X数据点，数据点所属空间DateDateDate数据集，XXX是从DataDataData中采样得到的P(∗)P(*)P(∗)变量
复制链接

扫一扫