隐变量图模型---隐变量和被观测变量组成
其中,x(被观测变量),z(通过读入编码的方式读入属性及类别--隐变量)
推理:通过观测数据,获得一些对数据的见解或知识。从被观测数据去推理无法观测的隐变量过程。
变分推理:使用近似的概率分布去完成,在给定被观测变量的情况下,对隐变量概率分布的估计过程。
衡量两个分布相似度的方法:通过kl散度进行衡量。
kl散度:交叉熵-熵
定量衡量两个分布之间的方法。其中,kl散度永远大于零。(只有在近似分布和真实分布的后验分布完全一致时等于零)
由于最小化kl散度较难(不知道真实的后验概率分布),因而最大化期望(由联合概率和近似概率组成)。
由上式可知,右边式子为证据下界,也称为ELBO。
因而,为了 最大化最大期望,因而也要最大化ELBO。
总结:
由于边缘概率通常包含隐变量的积分,所以真实的后验概率的概率密度分布通常难以计算。变分推理的逻辑在于,使用一组简单的可以参数化的概率密度分布近似真实的后验密度分布,将推理难以计算的问题变成一个可以计算的优化问题。kl散度等同于最大化证据下界。