Variational Inference数学推导

前言

这篇博客,我们主要通过详尽的数学推导来直观的了解Variational Inference,首先我们还是要讲一下它的背景知识。

背景

对于一组数据x,对其进行编码后得到的特征数据z往往服从某种特定的分布P(z),而这个隐含分布我们是无从得知的,但我们可以通过现有数据X来推断Z的分布,即P(z|x),但在实际问题中这个后验概率分布是很难求,甚至无法得到解析解,所以人们就尝试使用一个q(z) 来近似 P(z),Variational Inference就是用来寻找这个最优的 q(z) 的。
下面我们来介绍一下什么是变分:函数空间的自变量,我们称为宗量,当宗量变化了一点而导致泛函值变化了多少,这就是变分。变分就是微分在函数空间的拓展。

Variational Inference数学推导

在这里插入图片描述
其中P(z|x) 为后验,Variational Inference就是用来求这个后验的,核心思想就是,用以简单的分布q(z),通过改变它的参数,使得q(z) 接近P(z|x)
在这里插入图片描述
当这个优化问题收敛后,我们就可以用q(z) 来代替P(z|x),即被编码后的z 的分布P(z)
根据公式(1)我们继续推导如下:
在这里插入图片描述
两边同时对q(z) 求期望:
在这里插入图片描述
对于公式(4)等号右边的前两项称为Evidence Lower Bound(ELOB),对公式(4)进一步整理得到下式:
在这里插入图片描述
我们的目标是希望等号右边第二项的值最小,但这里含有P(z|x) 不好求,因为logP(x) 是固定的,我们可以通过最大化ELOB 来获得最小的KL 值。
现在Variational Inference的目标变为:Max[ELOB],而ELOB 又是q(z) 的函数,这也就是变分推断中变分的来源了。
那我们试着找一下ELOB 的上界:
在这里插入图片描述
从这里也不难明白为啥叫ELOB 了,它就是logP(x) 的下界。
在这里插入图片描述
其中第一项的作用是让q(z) 更加关注P(x,z) 中概率值大的地方;第二项是避免q(z) 将全部的精力都放在概率值大的地方,让他能够分散一点。
根据平均场近似理论,我们可以假设:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
先处理第一项:
在这里插入图片描述
在这里插入图片描述
再处理第二项:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
所以参数的更新策略为:
在这里插入图片描述
最后简单说明如何获得稳定q(z) 的迭代过程:
在这里插入图片描述
经过多次算法迭代,q(z) 收敛于固定值,从而得到最大ELOB,进而确定所需的KL散度与q(z) 分布。

总结

通过对上述过程的分析,我们可以很清楚q(z) 的初始值是随机的任意独立分布,而且一开始我们需要知道xz 的联合概率分布P(x,z),算法才能迭代。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值