bayes推断最麻烦的就是对概率密度的计算,相比较于MCMC算法,VI具有更快的速度,也更能理解——我们需要近似出概率密度。首先假象一个密度簇,然后找到对应的组成部分,接近目标,KL散度用来评估,需要不断优化。
在贝叶斯统计中,未知量的计算都可以看作(涉及)后验概率密度的推断,p(z, x) = p(z)p(x | z). 先验和似然的乘积得到全概率。
对比采样,我们的主要实现是优化过程:首先假想近似密度簇,即潜在变量的集合;然后利用最小化KL散度的方法得到后验,利用到密度簇的成员;最后近似处理后验,优化成员变量。
q(z) = argmin KL (q(z)||p(z|x)) 注意,这里是后验不是似然。
变分把推断问题转变成了优化问题。最难的在于,我们需要选择密度簇,足够灵活,可以和后验密度接近;足够简单,可以有效的优化。
数据集大小和后验分布的结构,确立使用范围,MC和VI。
方法:平均场推断和坐标上升优化
目标:给定观测值,近似出潜在变量的条件密度,关键是优化过程。
KL散度最大是得不出来的,分解后很复杂
所以用另一个目标函数ELBO,两部分组成,利用log(px)-KL:
第一部分为似然的期望,鼓励潜在的密度能解释观测值;第二部分变分密度和先验的负数,鼓励了密度接近先验。因为我们想得到ELBO的最大值,即KL的最小值——这是后验和密度分布相等。
需要用到EM算法(求似然估计)。。。。