关闭

3.3 贝叶斯线性回归

标签: 机器学习模式识别PRML贝叶斯方法
412人阅读 评论(0) 收藏 举报
分类:

3.3 贝叶斯线性回归

1、为什么选择贝叶斯

首先,尽管在最大似然法中引入了基函数 ϕ 和正则化参数 λ,但过拟合问题仍没有得到很好地解决,相反,随着最大似然函数的复杂度的增加,已经不能简单的以最大化似然函数为目标,而是需要在偏置与方差中取得平衡,才能达到最好的预测结果。所以,频率学家的方法似乎陷入了复杂度的漩涡。
其次,为了减小过拟合的程度,通常会进行交叉验证,但交叉验证不仅费时,更重要的是浪费了数据集使其不能全部用于训练部分。
贝叶斯方法的实质是计算一个预测分布,将不同 t 对应的预测结果组合起来,形成最终的预测结果,而组合的权重就根据 t 的 后验的大小,由于 t 是一个连续的随机变量,所以这个“组合”就是一个积分,在积分中并不会出现过拟合现象。

2、参数分布

在此前最大似然的介绍中,可知 p(tω)ω 的二次函数的指数形式,对应的共轭先验是高斯分布:

p(ω)=N(ωm0,S0)

m0是均值,S0是协方差。

接下来我们计算后验分布,它正⽐于似然函数与先验分布的乘积。由于共轭⾼斯先验分布的选择,后验分布也将是⾼斯分布。我们可以对指数项进⾏配平⽅,然后使⽤归⼀化的⾼斯分布的标准结果找到归⼀化系数,这样就计算出了后验分布的形式:

p(ωt)=N(ωmN,SN)

其中:
mN=SN(S10m0+βΦTt)

S1N=S10+βΦTΦ

如果数据点是顺序到达的,那么任何⼀个阶段的后验概率分布都可以看成后续数据点的先验,此时新的后验分布再次由上述公式给出。

为了简化起见,考虑⾼斯先验的⼀个特定的形式。具体来说,我们考虑零均值各向同性⾼斯分布。这个分布由⼀个精度参数 α 控制,即:

p(ωt)=N(ω0,α1I)

对应的 ω 的后验概率分布参数为:
mN=βSNΦTt

S1N=αI+βΦTΦ

后验概率分布的对数由对数似然函数与先验的对数求和的⽅式得到:

lnp(ωt)=β2n=1N{tnωTϕxn}2α2ωTω+

这里写图片描述

首先初始化一组参数,可以看到符合高斯分布,之后每遍历一个数据点,我们把其对应的似然函数与先验函数相乘,再归一化后得到后验概率分布。

3、预测分布

实际情况中,我们并不十分关注参数本身的分布,我们更关注的是对于新的 x 该模型预测结果的分布情况。这需要我们计算出预测分布( predictive distribution ),定义为:

p(tt⃗ ,α,β)=p(tω,β)p(ωt⃗ ,α,β)dω

其中 t⃗  是训练数据的⽬标变量的值组成的向量。
由于涉及到两个高斯分布的卷积,这里直接给出结果:
p(tx,t⃗ ,α,β)=N(tmTNϕ(x),σ2N(x))

其中方差 σ2N(x)为:
σ2N(x)=1β+ϕ(x)TSNϕ(x)

第一项为数据中的噪声,第二项反映出与参数 ω 关联的不确定性,由于 βω 是相互独立的高斯分布,因此它们的值是可以叠加的,从而影响后验分布。特别地,当 N+ 时,第二项趋于0,所以方差只与由 β 控制的具有可加性的噪声有关。
因此在距离基函数中⼼⽐较远的区域就只剩下 β1 的贡献,当对基函数所在的区域之外的区域进⾏外插的时候,模型对于它做出的预测会变得相当确定,这通常不是我们想要的结果。通过使⽤被称为⾼斯过程的另⼀种贝叶斯回归⽅法,这个问题可以被避免。

4、等价核

mN=SN(S10m0+βΦTt) 代入 y(x,ω)=ωTϕ(x):

y(x,mN)=mTNϕ(x)=βϕ(x)TSNΦTt=n=1Nβϕ(x)TSNϕ(xn)tn

即在点 x 处的预测均值由训练集⽬标变量 tn 的线性组合给出:
y(x,mN)=n=1Nk(x,xn)tn

其中,函数,
k(x,x)=βϕ(x)TSNϕ(x)

被称为平滑矩阵( smoother matrix )或者等价核( equivalent kernel )。像这样的回归函数,通过对训练集⾥⽬标值进⾏线性组合做预测,被称为线性平滑( linear smoother )。
在 x 处的预测分布的均值 y(x,m N ) 可以通过对⽬标值加权组合的⽅式获得。距离 x 较近的数据点可以赋⼀个较⾼的权值,⽽距离 x 较远的数据点可以赋⼀个较低的权值。
⼀个等价核定义了模型的权值。通过这个权值,训练数据集⾥的⽬标值被组合,然后对新的 x 值做预测。可以证明这些权值的和等于1,即:
n=1Nk(x,xn)=1

⽤核函数表⽰线性回归给出了解决回归问题的另⼀种⽅法。我们不引⼊⼀组基函数(它隐式地定义了⼀个等价的核),⽽是直接定义⼀个局部的核函数,然后在给定观测数据集的条件下,使⽤这个核函数对新的输⼊变量 x 做预测。这就引出了⽤于回归问题(以及分类问题)的⼀个很实⽤的框架,被称为⾼斯过程( Gaussian process )。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:16182次
    • 积分:487
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:0篇
    • 译文:6篇
    • 评论:4条
    文章分类
    最新评论