deep|Bayes(3)

前面说EM算法的时候讲到EM算法可看做一种非梯度优化方法,旨在计算对数似然函数在隐变量后验概率下的期望。一方面,很多时候在计算时涉及形式非常复杂的积分或求和,往往无法直接得到解析解;另一方面要积分的变量空间可能有很高的维度,这样就使得精确付出的代价很高,因此在现实应用中,近似计算是个很好的选择。而近似计算有两大类:第一类是采样,通过使用随机方法完成近似,如MCMC采样;第二类则是使用确定性近似完成近似,如变分法。

推断

 机器学习最重要的任务,根据一些已观察到的证据(训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测。概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布,利用已知变量推测未知变量分布称为“推断”    未知变量集合?已知变量集合?其他变量集合?. 生成式模型考虑联合分布??,?,?  ,判别式模型考虑?(?,?|?),推断就是??,?,?或者?(?,?|?)得到条件概率分布?(?|?)

采样法

MCMC,称为马尔科夫链蒙特卡洛方法。

假定我们遇到这种形式,pz是它的分布,求f(z)的期望,则可以从p(z)中取出一组样本{z_1,z_2,...,z_N},然后再取个平均

\widehat{f}=\frac{1}{N}\sum_{i=1}^Nf(z_i)来近似目标期望.若样本独立,基于大数定理则取出的期望具有较高的精度。

第二个MC是指蒙特卡洛方法,也叫蒙特卡洛抽样方法。基本思想是通过大量的抽样来近似得到想要的答案。圆周率

比如说,现在有E[f(\Theta )|x]=\int f(\Theta )p(\Theta |x)d\Theta我们知道p(\Theta |x),其实想要知道f(\Theta ) 的后验概率。 这时候蒙特卡洛方法指出可以从

p(\Theta |x)中抽取大量的独立同分布的变量\Theta _i于是可以f_m=1/m{\sum _{i=1} ^m h(\Theta_i)}在大数定律下,f_m可以看做是E的近似值。若这个方法在多维和后验分布形式未知的情况下,很难抽样出待估计参数的后验概率,于是就有了第一个MC 

第一个MC马尔科夫链

定义:,解释从 Xn,Xn−1,…,X0到 Xn+1的转移概率只与 Xn+1的前一个状态 Xn有关。如果条件概率P(X_{n+1}| X_n)与n无关,称为固定值,那么就成这个马氏链有平稳转移概率,记为p_i_j,并且我们称P=(p_i_j)为马氏链的转移矩阵。

马尔科夫链和贝叶斯的联系,p(i)就是先验分布,如果能够找到一个转移矩阵,那么就会在n步之后收敛到一个平稳分布,即为后验分布。得到平稳分布后,根据平稳性,乘上转移概率矩阵,平稳分布依然不变,所以就从得到平稳分布开始每次对其中一个抽样,经过m步后就能得到m个服从后验分布的样本,再使用蒙特卡洛方法进行计算。

变分法

变分法就是确定近似法的一种,它将微分的概念从变量推广到函数中,核心的思想是从某个函数空间中找到满足某些条件或约束的函数。实际上就是复杂的函数用形式简单的函数来近似,再做积分运算就比较简单。因此我们需要找一个衡量分布之间相似性或者差异性的度量,然后把问题转化为针对度量进行最优化,求得相似性最大 差异性最小的分布。

KL散度

变分推断

概率模型

main idea 找到让它近似等于后验概率,但是怎么知道这两个分布的相似程度呢,引入KL散度,KL越小则两种分布越接近。因此需要构建一个标准函数使得它最小,因此就转化为一个优化问题。什么时候最小呢,KL=0.但是我们只清楚q的分布而不知道p的分布,没法确定KL的值,但是还能转化。

ELBO是证据下界,最小化KL,就是最大化L(q),ELBO可以看作是一个关于q的函数。首先ELBO有上界,因此我们能够用最大化ELBO的方式,如何使得ELBO尽可能趋近上界呢,这时候就引入平均场理论。

平均场理论这个分布的各组变量\Theta _i之间相互独立的,因此在计算积分时可以变成多个较低维度的积分。这种可分解形式的变分近似方法称为平均场方法。mean指的期望,field指的分布。对变量\Theta _i分布q_i进行估计时,融合了除了\Theta _i之外的其他\Theta _{i != j}的信息,这是通过联合似然函数ln p(x,\Theta)在\Theta _i之外的变量分布求期望得到的。在实践中使用变分法,最重要的是考虑如何对隐变量进行拆解,以及假设个变量子集服从那种分布,再结合EM 算法即可得到概率图模型的推断和参数估计。

现看LQ的式子=\int \prod _{i=1} ^n Q_i(\theta _i)ln P(x,\theta) d\theta-\int \prod _{i=1} ^n Q_i(\theta _i)\sum _{i=1} ^n lnQ_i(\theta _i)d\theta

1

实践中使用变分法,最重要的是考虑如何对因变量进行拆解,以及假设各变量自己服从何种分布,在此基础上使用平均场近似结合EM算法对概率图模型进行推断和参数估计。



参考文献

https://www.cnblogs.com/Nietzsche/p/4255920.html

http://www.xuyankun.cn/2017/05/13/bayes/

https://www.cnblogs.com/Nietzsche/p/4255920.html

https://www.jianshu.com/p/76e0ad0d8778

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值