假设数据由一个随机过程产生,该随机过程分为两步:先由先验分布
产生隐藏变量
;再由条件分布
产生数据 ,下图(a)是这个随机过程的图模型。然而,直接求
由于某些z导致
比较小,而且x维度比较高,所以预估不准,所以弄一个
来近似
,怎么近似呢?通过下面这个公式来优化下界
这部分叫变分推断,只要理解KL散度的定义和贝叶斯公式就很容易推导,把假设成一个标准的正态分布。如果所有的 p(Z|X) 都很接近标准正态分布 N(0,I),那么根据定义,P(z)也就成标准正态分布了。
那怎么让所有的 p(Z|X) 都向 N(0,I) 看齐呢?
所以,引入以后,图(b)就开始变成了图(c),求逼近函数
的过程可以在引入
后开始利用神经网络反向传播,其中x是已有训练数据,
是公式
待求的参数,
是标准正态分布的随机抽样。有了
以后,就可以按照
作为解码器来生成新的样本。
鸣谢: