深度学习之自编码器(4)变分自编码器
基本的自编码器本质上是学习输入 x \boldsymbol x x和隐藏变量 z \boldsymbol z z之间映射关系,它是一个 判别模型(Discriminative model), 并不是生成模型(Generative model)。那么能不能将自编码器调整为生成模型,方便地生成样本呢?
给定隐藏变量的分布 P ( z ) \text{P}(\boldsymbol z) P(z),如果可以学习到条件概率分布 P ( x ∣ z ) \text{P}(\boldsymbol x|\boldsymbol z) P(x∣z),则通过对联合概率分布 P ( x , z ) = P ( x ∣ z ) P ( z ) \text{P}(\boldsymbol x,\boldsymbol z)=\text{P}(\boldsymbol x|\boldsymbol z)\text{P}(\boldsymbol z) P(x,z)=P(x∣z)P(z)进行采样,生成不同的样本。 变分自编码器(Variational Auto-Encoders,简称VAE)就可以实现此目的,如下图所示:
如果从神经网络的角度来理解的话,VAE和前面的自编码器一样,非常直观好理解;但是VAE的理论推导稍复杂,接下来我们先从神经网络的角度取阐述VAE,再从概率角度去推导VAE。
从神经网络的角度来看,VAE相对于自编码器模型,同样具有编码器和解码器两个子网络。解码器接受输入
x
\boldsymbol x
x,输出为隐变量
z
\boldsymbol z
z;解码器负责将隐变量z解码为重建的
x
ˉ
\bar\boldsymbol x
xˉ。不同的是,VAE模型对隐变量
z
\boldsymbol z
z的分布有显式地约束,希望隐变量
z
\boldsymbol z
z符合预设的先验分布
P
(
z
)
\text{P}(\boldsymbol z)
P(z)。因此,在损失函数的设计上,除了原有的重建误差项,还添加了隐变量
z
\boldsymbol z
z分布的约束项。
1. VAE原理
从概率的角度,我们假设任何数据集都采样自某个分布 p ( x ∣ z ) p(\boldsymbol x|\boldsymbol z) p(x∣z), z \boldsymbol z z是隐藏变量,代表了某种内部特征,比如手写数字的图片 x \boldsymbol x x, z \boldsymbol z z可以表示字体的大小、书写风格、加粗、斜体等设定,它符合某个先验分布 p ( z ) p(\boldsymbol z) p(z),在给定具体隐藏变量 z \boldsymbol z z的情况下,我们可以从学到了分布 p ( x ∣ z ) p(\boldsymbol x|\boldsymbol z) p(x∣z)中采样一些列的生成样本,这些样本都具有 z \boldsymbol z z所表示的共性。