3.3 贝叶斯线性回归

原创 2016年05月31日 16:33:35

3.3 贝叶斯线性回归

1、为什么选择贝叶斯

首先,尽管在最大似然法中引入了基函数 ϕ 和正则化参数 λ,但过拟合问题仍没有得到很好地解决,相反,随着最大似然函数的复杂度的增加,已经不能简单的以最大化似然函数为目标,而是需要在偏置与方差中取得平衡,才能达到最好的预测结果。所以,频率学家的方法似乎陷入了复杂度的漩涡。
其次,为了减小过拟合的程度,通常会进行交叉验证,但交叉验证不仅费时,更重要的是浪费了数据集使其不能全部用于训练部分。
贝叶斯方法的实质是计算一个预测分布,将不同 t 对应的预测结果组合起来,形成最终的预测结果,而组合的权重就根据 t 的 后验的大小,由于 t 是一个连续的随机变量,所以这个“组合”就是一个积分,在积分中并不会出现过拟合现象。

2、参数分布

在此前最大似然的介绍中,可知 p(tω)ω 的二次函数的指数形式,对应的共轭先验是高斯分布:

p(ω)=N(ωm0,S0)

m0是均值,S0是协方差。

接下来我们计算后验分布,它正⽐于似然函数与先验分布的乘积。由于共轭⾼斯先验分布的选择,后验分布也将是⾼斯分布。我们可以对指数项进⾏配平⽅,然后使⽤归⼀化的⾼斯分布的标准结果找到归⼀化系数,这样就计算出了后验分布的形式:

p(ωt)=N(ωmN,SN)

其中:
mN=SN(S10m0+βΦTt)

S1N=S10+βΦTΦ

如果数据点是顺序到达的,那么任何⼀个阶段的后验概率分布都可以看成后续数据点的先验,此时新的后验分布再次由上述公式给出。

为了简化起见,考虑⾼斯先验的⼀个特定的形式。具体来说,我们考虑零均值各向同性⾼斯分布。这个分布由⼀个精度参数 α 控制,即:

p(ωt)=N(ω0,α1I)

对应的 ω 的后验概率分布参数为:
mN=βSNΦTt

S1N=αI+βΦTΦ

后验概率分布的对数由对数似然函数与先验的对数求和的⽅式得到:

lnp(ωt)=β2n=1N{tnωTϕxn}2α2ωTω+

这里写图片描述

首先初始化一组参数,可以看到符合高斯分布,之后每遍历一个数据点,我们把其对应的似然函数与先验函数相乘,再归一化后得到后验概率分布。

3、预测分布

实际情况中,我们并不十分关注参数本身的分布,我们更关注的是对于新的 x 该模型预测结果的分布情况。这需要我们计算出预测分布( predictive distribution ),定义为:

p(tt⃗ ,α,β)=p(tω,β)p(ωt⃗ ,α,β)dω

其中 t⃗  是训练数据的⽬标变量的值组成的向量。
由于涉及到两个高斯分布的卷积,这里直接给出结果:
p(tx,t⃗ ,α,β)=N(tmTNϕ(x),σ2N(x))

其中方差 σ2N(x)为:
σ2N(x)=1β+ϕ(x)TSNϕ(x)

第一项为数据中的噪声,第二项反映出与参数 ω 关联的不确定性,由于 βω 是相互独立的高斯分布,因此它们的值是可以叠加的,从而影响后验分布。特别地,当 N+ 时,第二项趋于0,所以方差只与由 β 控制的具有可加性的噪声有关。
因此在距离基函数中⼼⽐较远的区域就只剩下 β1 的贡献,当对基函数所在的区域之外的区域进⾏外插的时候,模型对于它做出的预测会变得相当确定,这通常不是我们想要的结果。通过使⽤被称为⾼斯过程的另⼀种贝叶斯回归⽅法,这个问题可以被避免。

4、等价核

mN=SN(S10m0+βΦTt) 代入 y(x,ω)=ωTϕ(x):

y(x,mN)=mTNϕ(x)=βϕ(x)TSNΦTt=n=1Nβϕ(x)TSNϕ(xn)tn

即在点 x 处的预测均值由训练集⽬标变量 tn 的线性组合给出:
y(x,mN)=n=1Nk(x,xn)tn

其中,函数,
k(x,x)=βϕ(x)TSNϕ(x)

被称为平滑矩阵( smoother matrix )或者等价核( equivalent kernel )。像这样的回归函数,通过对训练集⾥⽬标值进⾏线性组合做预测,被称为线性平滑( linear smoother )。
在 x 处的预测分布的均值 y(x,m N ) 可以通过对⽬标值加权组合的⽅式获得。距离 x 较近的数据点可以赋⼀个较⾼的权值,⽽距离 x 较远的数据点可以赋⼀个较低的权值。
⼀个等价核定义了模型的权值。通过这个权值,训练数据集⾥的⽬标值被组合,然后对新的 x 值做预测。可以证明这些权值的和等于1,即:
n=1Nk(x,xn)=1

⽤核函数表⽰线性回归给出了解决回归问题的另⼀种⽅法。我们不引⼊⼀组基函数(它隐式地定义了⼀个等价的核),⽽是直接定义⼀个局部的核函数,然后在给定观测数据集的条件下,使⽤这个核函数对新的输⼊变量 x 做预测。这就引出了⽤于回归问题(以及分类问题)的⼀个很实⽤的框架,被称为⾼斯过程( Gaussian process )。

版权声明:本文为博主原创文章,未经博主允许不得转载。

贝叶斯线性回归(Bayesian Linear Regression)

在很多的机器学习或数据挖掘的问题中,我们所面对的只有数据,但数据中潜在的概率密度函数是不知道的,其概率密度分布需要我们从数据中估计出来。想要确定数据对应的概率密度分布,就需要确定两个东西:**概率密度...
  • daunxx
  • daunxx
  • 2016年06月21日 09:50
  • 19628

贝叶斯线性回归(Bayesian Linear Regression)

mlapp看到了第七章,跳了第六章没看,第七章主要是讲线性回归的,前面首先是最朴素的线性回归,接着是ridge线性回归(其实就是带惩罚参数的回归),然后就是本文要总结的贝叶斯线性回归。把prml和ml...

机器学习:贝叶斯总结_3:线性回归和贝叶斯回归

线性回归的基函数模型 y(x,w)=w0+w1x1+......+wDxDy(x,w)=w_0+w_1x_1+......+w_Dx_D y(x,w)=w0+∑M−1j=1wjϕj(x)y(x,w)...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

【机器学习】贝叶斯线性回归模型

假设当前数据为X,回归参数为W,结果为B,那么根据贝叶斯公式,可以得到后验概率: ,我们的目标是让后验概率最大化。其中pD概率是从已知数据中获取的量,视为常量;pw函数是w分布的先验信息。 令:  ...

【译文】利用STAN做贝叶斯回归分析:Part 1 正态回归

【译文】利用STAN做贝叶斯回归分析:Part 1 正态回归作者  Lionel Hertzog本文将介绍如何在R中做贝叶斯回归分析,你能在文末的参考文献中找到相关主题的更多信息。贝叶斯回归贝叶斯统计...

线性回归与贝叶斯推理——漫谈机器学习

1. 从观察出发——回归问题在统计学中,我们认为一个变量是服从某种理想分布的,称为理想变量。而为了获得理想变量的值,我们需要去观察这个世界,并得到观察数据,称为观察变量。观察变量与理想变量之间的函数关...

贝叶斯线性回归(Bayesian Linear Regression)

参考: 1. 贝叶斯线性回归(Bayesian Linear Regression) 2.  10 types of regressions. Which one to use?...

关于“人工智能”的思考

(一点点想法和思考)       “人工智能”,窃以为是计算机科学最引人入胜的一个方向,可惜的是我们还没能看到有任何突破性的进展,就像网易公开课对“斯坦福机器学习”课程的描述一样,“人工智能”似乎遇...

最小二乘法拟合直线 c++程序

//point.hclass Point //Point类的声明{public: //外部接口Point(float xx=0, float yy=0) {X=xx;Y=yy;}float GetX(...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:3.3 贝叶斯线性回归
举报原因:
原因补充:

(最多只允许输入30个字)