- 最优化量是一个泛函时,需要研究所有的输入函数,找到最大化或者最小化泛函的函数就是变分
- 变分近似的过程:限制需要最优化算法搜索的函数的范围(二次函数,或者,固定基曲线函数的线性组合)
变分推断
符号假设
- Z :所有的潜在变量和参数组成的集合
X :所有的观测变量的集合- 确定了联合分布 p(X,Z)
- 目标:找到后验概率分布 p(Z|X) , 验证模型证据 p(X) 的近似
公式
lnp(X)=L(q)+KL(q||p)
其中
L(q)=∫q(Z)ln{p(X,Z)q(Z)}dZ
KL(q||p)=−∫q(Z)ln{p(Z|X)q(Z)}dZ
- 常规思路:EM算法
- 新思路
- 在真实的概率分布进行操作不可以行的情况下(q(Z))不可操作
- 考虑 q(Z) 的受限类别
- 寻找这个类别中,是的KL散度达到最小值的概率分布
分解概率分布
- 限制
q(Z)
的范围
q(Z)=∏Mi=1qi(Zi)
=>平均场论
- 在所有上述形式的 q(Z) 中寻找使得下届 L(q) 最大的概率分布
- 将上式带入 L(q)
- 记 qj(Zj) 为 qj
L(q)=∫∏iqi{lnp(X,Z)−∑ilnqi}dZ
=∫qj{∫lnp(X,Z)∏i≠jqidZi}dZj−∫qjlnqjdZj+常数
=∫qjlnp^(x,Zj)dZj−∫qjlnqjdZj+常数
其中:
lnp^(X,Zj)=Ei≠j[lnp(X,Z)]+常数
Ei≠j[lnp(X,Z)]=∫lnp(X,Z)∏i≠jqidZi
结论
- 上式中的 , ∫qj{∫lnp(X,Z)∏i≠jqidZi}dZj−∫qjlnqjdZj+常数 是 qj(Zj) 和 p^(X,Zj) 之间KL的散度
所以最大化上式,等价于 最小化 KL 散度。且出现在 q∗j(Zj)=p^(X,Zj)
=>
lnq∗j(Zj)=Ei≠j[lnp(X,Z)]+常数
得到因子 qj 的最优解的对数,需要求联合概率分布,然后取期望就可以。