PRML Reading Group
@(PRML)[拉普拉斯近似, 贝叶斯logist回归]
首先贝叶斯logistic回归是什么呢?
如果想了解拉普拉斯近似,我们不妨可以先从他的应用—-贝叶斯logistic回归看起,那么它和贝叶斯线性回归,logistic回归有什么区别呢?
- 线性模型:像我们熟悉的logistic回归,通常做法就是取一个二项分布的似然函数,再最大似然这个函数,转换成求最小二乘法,再求导出w向量的解析解,最后就是用梯度下降,牛顿啊去估计这个参数w的最优解(就是那一套通用流程)。所以线性模型重点就是放在求某个参数上。但。。。是,logistic回归属于点估计,点少了,很容易造成容易过拟合overfitting。
- 贝叶斯模型:它估计的是一个分布。而不是一个最优化的值 Wmap ,我们通过似然函数×先验求出后验概率分布之后,再用它去积分进行了类别预测,考虑的是全局的所有w,所以自然的就消除了过拟合。但。。。是, 所以这也就是为什么难操作intractable
拉普拉斯近似
Alt text
logistc回归的贝叶斯观点中,
后验分布不是高斯分布
了(上图),所以我们就不能精确的对w求积分,因此有必要介绍某种形式的近似
。我们就引入了拉普拉斯近似。
目标:找到定义在一组变量上的概率密度的
高斯近似
。
拉普拉斯近似的推导
单一连续变量:
1.寻找众数
- 假定分布
P(z)=1Zf(z)
Z=∫f(z) 是归一化系数。
我们假定 Z 的值是未知的。在拉普拉斯方法中,我们就是要寻找高斯近似q(z) ,他的中心位于 p(z) 众数的位置,所以就去寻找众数
,即寻找一个点使 p′(z)=0
2.泰勒展开
并取指数
高斯分布的对数是变量的
二次函数
。所以考虑 lnf(z) 以众数 z0 为中心的泰勒展开
:
ln(z)≃lnf(z0)−12A(z−z0)
没有一阶项是因为 z0 是概率分布的局部最大值两边同时取
指数
:f(z)≃f(z0)exp{ −A2(z−z0)2}
3.归一化
- 使用归一化的
高斯分布的标准形式
,得到归一化的概率分布 q(z) :q(z)=(A2π)12exp{ −A2(z−z0)2}
- 高斯近似只在精度 A>0 时有良好的定义,也就是驻点 z0 一定是个局部最大值,使得 f(z) 在驻点 z0 处的二阶导数为负