本系列为《模式识别与机器学习》的读书笔记。
一,贝叶斯线性回归
1,参数分布
关于线性拟合的贝叶斯⽅法的讨论,⾸先引⼊模型参数 w \boldsymbol{w} w 的先验概率分布。现在这个阶段,把噪声精度参数 β \beta β 当做已知常数。⾸先,由公式(3.8)定义的似然函 数 p ( t ∣ w ) p(t|\boldsymbol{w}) p(t∣w) 是 w \boldsymbol{w} w 的⼆次函数的指数形式,于是对应的共轭先验是⾼斯分布,形式为:
p ( w ) = N ( w ∣ m 0 , S 0 ) (3.30) p(\boldsymbol{w})=\mathcal{N}(\boldsymbol{w}|\boldsymbol{m}_{0},\boldsymbol{S}_{0})\tag{3.30} p(w)=N(w∣m0,S0)(3.30)
均值为 m 0 \boldsymbol{m}_{0} m0 ,协⽅差为 S 0 \boldsymbol{S}_{0} S0 。
由于共轭⾼斯先验分布的选择,后验分布也将是⾼斯分布。 我们可以对指数项进⾏配平⽅, 然后使⽤归⼀化的⾼斯分布的标准结果找到归⼀化系数,这样就计算出了后验分布的形式:
p ( w ∣ t ) = N ( w ∣ m N , S N ) (3.31) p(\boldsymbol{w}|\boldsymbol{t})=\mathcal{N}(\boldsymbol{w}|\boldsymbol{m}_{N},\boldsymbol{S}_{N})\tag{3.31} p(w∣t)=N(w∣mN,SN)(3.31)
其中,
m N = S N ( S 0 − 1 m 0 + β Φ T t ) S N − 1 = S 0 − 1 + β Φ T Φ \boldsymbol{m}_{N}=\boldsymbol{S}_{N}(\boldsymbol{S}_{0}^{-1}\boldsymbol{m}_{0}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{t}) \\ \boldsymbol{S}_{N}^{-1}=\boldsymbol{S}_{0}^{-1}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi} mN=SN(S0−1m0+βΦTt)SN−1=S0−1+βΦTΦ
为了简化起见,考虑⾼斯先验的⼀个特定的形式,即考虑零均值各向同性⾼斯分布,这个分布由⼀个精度参数 α \alpha α 控制,即:
p ( w ∣ α ) = N ( w ∣ 0 , α − 1 I ) (3.32) p(\boldsymbol{w}|\alpha)=\mathcal{N}(\boldsymbol{w}|\boldsymbol{0},\alpha^{-1}\boldsymbol{I})\tag{3.32} p(w∣α)=N(w∣0,α−1I)(3.32)
对应的 w \boldsymbol{w} w 后验概率分布由公式(3.31)给出,其中,
m N = β S N Φ T t S N − 1 = α I + β Φ T Φ \boldsymbol{m}_{N}=\beta \boldsymbol{S}_{N}\boldsymbol{\Phi}^{T}\boldsymbol{t}\\ \boldsymbol{S}_{N}^{-1}=\alpha \boldsymbol{I}+\beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi} mN=βSNΦTtSN−1=αI+βΦTΦ
后验概率分布的对数由对数似然函数与先验的对数求和的⽅式得到。它是 w \boldsymbol{w} w 的函数,形式为:
ln p ( w ∣ t ) = − β 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 − α 2 w T w + 常 数 (3.33) \ln p(\boldsymbol{w}|\boldsymbol{t})=-\frac{\beta}{2}\sum_{n=1}^{N}\{t_n-\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_{n})\}^{2}-\frac{\alpha}{2}\boldsymbol{w}^{T}\boldsymbol{w}+常数\tag{3.33} lnp(w∣t)=−2βn=1∑N{
tn−wTϕ(xn)}2−2αwTw+常数(3.33)
2,预测分布
在实际应⽤中,我们通常感兴趣的不是 w \boldsymbol{w} w 本⾝的值,⽽是对于新的 x \boldsymbol{x} x 值预测出 t t t 的值。这需要我们计算出预测分布(predictive distribution
),定义为:
p ( t ∣ t , α , β ) = ∫ p ( t ∣ w , β ) p ( w ∣ t , α , β ) d w (3.34) p(t|\mathbf{t},\alpha,\beta)=\int p(t|\boldsymbol{w},\beta)p(\boldsymbol{w}|\mathbf{t},\alpha,\beta)\mathrm{d}\boldsymbol{w}\tag{3.34} p(t∣t,α,β)=∫p(t∣w,β)p(w∣t,α,β)dw(3.34)
其中 t \mathbf{t} t 是训练数据⽬标变量的值组成的向量。经综合分析,预测分布的形式可以进一步具体化为:
p ( t ∣ x , t , α , β ) = N ( t ∣ m N T ϕ ( x ) , σ N 2 ( x ) ) (3.35) p(t|\boldsymbol{x},\mathbf{t},\alpha,\beta)=\mathcal{N}(t|\boldsymbol{m}_{N}^{T}\boldsymbol{\phi}(\boldsymbol{x}),\sigma_{N}^{2}(\boldsymbol{x}))\tag{3.35} p(t∣x,t,α,β)=N(t∣mNTϕ(x),σN2(x))(3.35)
其中,
σ N 2 ( x ) = 1 β + ϕ ( x ) T S N ϕ ( x ) \sigma_{N}^{2}(\boldsymbol{x})=\frac{1}{\beta}+\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\phi}(\boldsymbol{x}) σN2(x)=β1+ϕ(x)TSNϕ(x)
其中,式中第⼀项表⽰数据中的噪声,第⼆项反映了与参数 w \boldsymbol{w} w 关联的不确定性。当额外的数据点被观测到的时候,后验概率分布会变窄。从⽽可以证明出 σ N + 1 2 ( x ) ≤ σ N 2 ( x ) \sigma_{N+1}^{2}(\boldsymbol{x})\le \sigma_{N}^{2}(\boldsymbol{x}) σN+12(x)≤σN2(x)(Qazaz et al.
, 1997)。 在极限 N → ∞ N \to \infty N→∞ 的情况下, 式中第⼆项趋于零, 从⽽预测分布的⽅差只与参数 β \beta β 控制的具有可加性的噪声有关。
在下图3.15~3.18中,我们调整⼀个由⾼斯基函数线性组合的模型,使其适应于不同规模的数据集,然后观察对应的后验概率分布。其中,绿⾊曲线对应着产⽣数据点的函数 sin ( 2 π x ) \sin(2\pi x) sin(2πx)(带有附加的⾼斯噪 声),⼤⼩为 N = 1 , N = 2 , N = 4 N = 1, N = 2, N = 4 N=1,N=2,N=4 和 N = 25 N = 25 N=25 的数据集在四幅图中⽤蓝⾊圆圈表⽰。对于每幅图,红⾊曲线是对应的⾼斯预测分布的均值,红⾊阴影区域是均值两侧的⼀个标准差范围的区域。注意,预测的不确定性依赖于 x x x,并且在数据点的邻域内最⼩。
为了更加深刻地认识对于不同的 x x x 值的预测之间的协⽅差,我们可以从 w \boldsymbol{w} w 的后验概率分布中抽取样本,然后画出对应的函数 y ( x , w ) y(x, \boldsymbol{w}) y(x,w) ,如图3.19~3.22所⽰。
3,等价核
考虑以下预测均值形式:
y ( x , m N ) = m N T ϕ ( x ) = β ϕ ( x ) T S N Φ T t = ∑ n = 1 N β ϕ ( x ) T S N ϕ ( x n ) t n (3.36) y(\boldsymbol{x},\boldsymbol{m}_{N})=\boldsymbol{m}_{N}^{T}\boldsymbol{\phi}(\boldsymbol{x})=\beta \boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\Phi}^{T}\mathbf{t}=\sum_{n=1}^{N}\beta \boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{S}_{N}\boldsymbol{\phi}(\boldsymbol{x}_{n})t_{n}\tag{3.36} y(x,mN)=mNTϕ(x)=βϕ(x)TSNΦTt=n=1∑Nβϕ(x)TSNϕ(xn)tn(3.36)
其中,
S N − 1 = S 0 − 1 +