【机器学习基础】贝叶斯线性模型

本文介绍了贝叶斯线性回归的基础知识,包括参数分布、预测分布和等价核的概念。通过高斯先验分布,展示了后验概率分布的计算,并探讨了贝叶斯模型比较中的证据近似和模型选择。文章还讨论了固定基函数的局限性,强调了在处理高维数据时的挑战。
摘要由CSDN通过智能技术生成

本系列为《模式识别与机器学习》的读书笔记。

一,贝叶斯线性回归

1,参数分布

关于线性拟合的贝叶斯⽅法的讨论,⾸先引⼊模型参数 w \boldsymbol{w} w 的先验概率分布。现在这个阶段,把噪声精度参数 β \beta β 当做已知常数。⾸先,由公式(3.8)定义的似然函 数 p ( t ∣ w ) p(t|\boldsymbol{w}) p(tw) w \boldsymbol{w} w 的⼆次函数的指数形式,于是对应的共轭先验是⾼斯分布,形式为:

p ( w ) = N ( w ∣ m 0 , S 0 ) (3.30) p(\boldsymbol{w})=\mathcal{N}(\boldsymbol{w}|\boldsymbol{m}_{0},\boldsymbol{S}_{0})\tag{3.30} p(w)=N(wm0,S0)(3.30)
均值为 m 0 \boldsymbol{m}_{0} m0 ,协⽅差为 S 0 \boldsymbol{S}_{0} S0

由于共轭⾼斯先验分布的选择,后验分布也将是⾼斯分布。 我们可以对指数项进⾏配平⽅, 然后使⽤归⼀化的⾼斯分布的标准结果找到归⼀化系数,这样就计算出了后验分布的形式:
p ( w ∣ t ) = N ( w ∣ m N , S N ) (3.31) p(\boldsymbol{w}|\boldsymbol{t})=\mathcal{N}(\boldsymbol{w}|\boldsymbol{m}_{N},\boldsymbol{S}_{N})\tag{3.31} p(wt)=N(wmN,SN)(3.31)
其中,
m N = S N ( S 0 − 1 m 0 + β Φ T t ) S N − 1 = S 0 − 1 + β Φ T Φ \boldsymbol{m}_{N}=\boldsymbol{S}_{N}(\boldsymbol{S}_{0}^{-1}\boldsymbol{m}_{0}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{t}) \\ \boldsymbol{S}_{N}^{-1}=\boldsymbol{S}_{0}^{-1}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi} mN=SN(S01m0+βΦTt)SN1=S01+βΦTΦ
为了简化起见,考虑⾼斯先验的⼀个特定的形式,即考虑零均值各向同性⾼斯分布,这个分布由⼀个精度参数 α \alpha α 控制,即:
p ( w ∣ α ) = N ( w ∣ 0 , α − 1 I ) (3.32) p(\boldsymbol{w}|\alpha)=\mathcal{N}(\boldsymbol{w}|\boldsymbol{0},\alpha^{-1}\boldsymbol{I})\tag{3.32} p(wα)=N(w0,α1I)(3.32)
对应的 w \boldsymbol{w} w 后验概率分布由公式(3.31)给出,其中,
m N = β S N Φ T t S N − 1 = α I + β Φ T Φ \boldsymbol{m}_{N}=\beta \boldsymbol{S}_{N}\boldsymbol{\Phi}^{T}\boldsymbol{t}\\ \boldsymbol{S}_{N}^{-1}=\alpha \boldsymbol{I}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi} mN=βSNΦTtSN1=αI+βΦTΦ
后验概率分布的对数由对数似然函数与先验的对数求和的⽅式得到。它是 w \boldsymbol{w} w 的函数,形式为:
ln ⁡ p ( w ∣ t ) = − β 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 − α 2 w T w + 常 数 (3.33) \ln p(\boldsymbol{w}|\boldsymbol{t})=-\frac{\beta}{2}\sum_{n=1}^{N}\{t_n-\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_{n})\}^{2}-\frac{\alpha}{2}\boldsymbol{w}^{T}\boldsymbol{w}+常数\tag{3.33} lnp(wt)=2βn=1N{ tnwTϕ(xn)}22αwTw+(3.33)

2,预测分布

在实际应⽤中,我们通常感兴趣的不是 w \boldsymbol{w} w 本⾝的值,⽽是对于新的 x \boldsymbol{x} x 值预测出 t t t 的值。这需要我们计算出预测分布predictive distribution),定义为:
p ( t ∣ t , α , β ) = ∫ p ( t ∣ w , β ) p ( w ∣ t , α , β ) d w (3.34) p(t|\mathbf{t},\alpha,\beta)=\int p(t|\boldsymbol{w},\beta)p(\boldsymbol{w}|\mathbf{t},\alpha,\beta)\mathrm{d}\boldsymbol{w}\tag{3.34} p(tt,α,β)=p(tw,β)p(wt,α,β)dw(3.34)
其中 t \mathbf{t} t 是训练数据⽬标变量的值组成的向量。经综合分析,预测分布的形式可以进一步具体化为:
p ( t ∣ x , t , α , β ) = N ( t ∣ m N T ϕ ( x ) , σ N 2 ( x ) ) (3.35) p(t|\boldsymbol{x},\mathbf{t},\alpha,\beta)=\mathcal{N}(t|\boldsymbol{m}_{N}^{T}\boldsymbol{\phi}(\boldsymbol{x}),\sigma_{N}^{2}(\boldsymbol{x}))\tag{3.35} p(tx,t,α,β)=N(tmNTϕ(x),σN2(x))(3.35)
其中,
σ N 2 ( x ) = 1 β + ϕ ( x ) T S N ϕ ( x ) \sigma_{N}^{2}(\boldsymbol{x})=\frac{1}{\beta}+\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\phi}(\boldsymbol{x}) σN2(x)=β1+ϕ(x)TSNϕ(x)
其中,式中第⼀项表⽰数据中的噪声,第⼆项反映了与参数 w \boldsymbol{w} w 关联的不确定性。当额外的数据点被观测到的时候,后验概率分布会变窄。从⽽可以证明出 σ N + 1 2 ( x ) ≤ σ N 2 ( x ) \sigma_{N+1}^{2}(\boldsymbol{x})\le \sigma_{N}^{2}(\boldsymbol{x}) σN+12(x)σN2(x)Qazaz et al., 1997)。 在极限 N → ∞ N \to \infty N 的情况下, 式中第⼆项趋于零, 从⽽预测分布的⽅差只与参数 β \beta β 控制的具有可加性的噪声有关。

在下图3.15~3.18中,我们调整⼀个由⾼斯基函数线性组合的模型,使其适应于不同规模的数据集,然后观察对应的后验概率分布。其中,绿⾊曲线对应着产⽣数据点的函数 sin ⁡ ( 2 π x ) \sin(2\pi x) sin(2πx)(带有附加的⾼斯噪 声),⼤⼩为 N = 1 , N = 2 , N = 4 N = 1, N = 2, N = 4 N=1,N=2,N=4 N = 25 N = 25 N=25 的数据集在四幅图中⽤蓝⾊圆圈表⽰。对于每幅图,红⾊曲线是对应的⾼斯预测分布的均值,红⾊阴影区域是均值两侧的⼀个标准差范围的区域。注意,预测的不确定性依赖于 x x x,并且在数据点的邻域内最⼩。
N=1
N=2
N=4
N=25
为了更加深刻地认识对于不同的 x x x 值的预测之间的协⽅差,我们可以从 w \boldsymbol{w} w 的后验概率分布中抽取样本,然后画出对应的函数 y ( x , w ) y(x, \boldsymbol{w}) y(x,w) ,如图3.19~3.22所⽰。
N=1
N=2
N=4
N=25

3,等价核

考虑以下预测均值形式:
y ( x , m N ) = m N T ϕ ( x ) = β ϕ ( x ) T S N Φ T t = ∑ n = 1 N β ϕ ( x ) T S N ϕ ( x n ) t n (3.36) y(\boldsymbol{x},\boldsymbol{m}_{N})=\boldsymbol{m}_{N}^{T}\boldsymbol{\phi}(\boldsymbol{x})=\beta \boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\Phi}^{T}\mathbf{t}=\sum_{n=1}^{N}\beta \boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\phi}(\boldsymbol{x}_{n})t_{n}\tag{3.36} y(x,mN)=mNTϕ(x)=βϕ(x)TSNΦTt=n=1Nβϕ(x)TSNϕ(xn)tn(3.36)
其中,
S N − 1 = S 0 − 1 +

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值