十一、变分推断
1.背景
{ 频 率 角 度 , 优 化 问 题 { 回 归 { M o d e l 策 略 算 法 { 解 析 解 数 值 解 S V M E M 等 等 贝 叶 斯 角 度 , 积 分 问 题 { 贝 叶 斯 I n f e r n e c e ( 求 贝 叶 斯 后 验 ) P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) 贝 叶 斯 决 策 ( 预 测 , 最 后 还 是 求 贝 叶 斯 后 验 ) P ( x ~ ∣ x ) = ∫ θ P ( x ~ , θ ∣ x ) d θ = ∫ θ P ( x ~ ∣ θ ) P ( θ ∣ x ) d θ = E θ ∣ x [ P ( x ~ ∣ θ ) ] \begin{cases} 频率角度,优化问题 \begin{cases} 回归 \begin{cases} Model\\ 策略\\ 算法 \begin{cases} 解析解\\ 数值解 \end{cases} \end{cases}\\ SVM\\ EM\\ 等等 \end{cases}\\ 贝叶斯角度,积分问题 \begin{cases} 贝叶斯Infernece(求贝叶斯后验)\\ P(\theta \mid x)=\frac{P(x \mid \theta)P(\theta)}{P(x)}\\ 贝叶斯决策(预测,最后还是求贝叶斯后验)\\ P(\tilde{x} \mid x)=\int_{\theta}P(\tilde{x},\theta \mid x) d\theta=\int_{\theta}P(\tilde{x} \mid \theta)P(\theta \mid x)d\theta=E_{\theta \mid x}[P(\tilde{x} \mid \theta)] \end{cases} \end{cases} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧频率角度,优化问题⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧回归⎩⎪⎪⎪⎨⎪⎪⎪⎧Model策略算法{ 解析解数值解SVMEM等等贝叶斯角度,积分问题⎩⎪⎪⎪⎨⎪⎪⎪⎧贝叶斯Infernece(求贝叶斯后验)P(θ∣x)=P(x)P(x∣θ)P(θ)贝叶斯决策(预测,最后还是求贝叶斯后验)P(x~∣x)=∫θP(x~,θ∣x)dθ=∫θP(x~∣θ)P(θ∣x)dθ=Eθ∣x[P(x~∣θ)]
I n f e r e n c e { 精 确 推 断 ( 后 验 简 单 ) 近 似 推 断 / 近 似 推 断 的 期 望 ( 参 数 空 间 、 隐 变 量 非 常 复 杂 ) { 确 定 性 近 似 → V I 随 机 近 似 → M C M C , M H , G i b b s Inference \begin{cases} 精确推断(后验简单)\\ 近似推断/近似推断的期望(参数空间、隐变量非常复杂)\\ \begin{cases} 确定性近似\to VI\\ 随机近似 \to MCMC,MH,Gibbs \end{cases} \end{cases} Inference⎩⎪⎪⎪⎨⎪⎪⎪⎧精确推断(后验简单)近似推断/近似推断的期望(参数空间、隐变量非常复杂){ 确定性近似→VI随机近似→MCMC,MH,Gibbs
2.公式推导
x x x:observed data
z z z:later variable + parameter
( x , z ) (x,z) (x,z):complete data
ELBO + KL
log P ( x ) = L ( q ) + K L ( q ∣ ∣ p ) \log P(x)= L(q)+KL(q||p) logP(x)=L(q)+KL(q∣∣p)
q ^ ( z ) = arg max q ( z ) L ( q ) → q ^ ( z ) ≈ p ( z ∣ x ) \hat q(z)=\arg \max_{q(z)} L(q) \to \hat q(z) \approx p(z \mid x) q^(z)=argmaxq(z)L(q)→q^(z)≈p(z∣x)
基于物理的平均场理论
q ( z ) = ∏ i = 1 M q i ( z i ) q(z)=\prod_{i=1}^M q_i(z_i) q(z)=∏i=1Mqi(zi),计算时固定一维 q j ( z j ) q_j(z_j) qj(zj)
L ( q ) = ∫ z q ( z ) log P ( x , z ) d z − ∫ z q ( z ) log q ( z ) d z L(q)=\int_z q(z) \log P(x,z)dz-\int_z q(z)\log q(z)dz L(q)=∫zq(z)logP(x,z)dz−∫zq(z)logq(z)dz
∫ z q ( z ) log P ( x , z ) d z = ∫ z ∏ i = 1 M q i ( z i ) log P ( x , z ) d z = ∫ z j q j ( z j ) d z j ( ∫ z i ∏ i M q i ( z i ) log P ( x , z ) d z i ) ( i ≠ j