统计机器学习-张志华-例子-Bayesian Linear Regression
本节贝叶斯线性回归推到主要是根据 张志华 统计机器学习 p39课来的。
但是其课中大部分概率p省略了X,最初的时候不知道这一点,(这一点可以看Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf的书中有提到)
所以本节的推导实际上有些问题。所以贴出一个无问题的纸质推导(暂时没时间整理成电子的):
无问题的纸质贝叶斯线性回归推导: (完全不省略X)
问题描述:
y i = x i T b + ϵ i y_i={x_i}^{T} b + \epsilon_i yi=xiTb+ϵi
y i ∈ R y_i \in \R yi∈R
x i T ∈ R p {x_i}^{T} \in \R^p xiT∈Rp
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x i , y i ) , . . . , ( x n , y n ) } D=\{(x_1,y_1), (x_2,y_2), ... ,(x_i,y_i), ... ,(x_n,y_n)\} D={(x1,y1),(x2,y2),...,(xi,yi),...,(xn,yn)}
假定: ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i \sim \mathcal{N}(0,\sigma^2) ϵi∼N(0,σ2)
这里实际上描述了 p ( D ∣ b , σ 2 ) p(D|b,\sigma^2) p(D∣b,σ2)是个高斯分布 即: p ( D ∣ b , σ 2 ) = ∏ i = 1 n p ( ϵ i ∣ b , σ 2 ) p(D|b,\sigma^2) = \prod_{i=1}^{n} p(\epsilon_i|b,\sigma^2) p(D∣b,σ2)=∏i=1np(ϵi∣b,σ2)
p ( b , σ 2 ) = p ( b ∣ σ 2 ) p ( σ 2 ) p(b,\sigma^2)=p(b|\sigma^2)p(\sigma^2) p(b,σ2)=p(b∣σ2)p(σ2)
给分布:p ( b ∣ σ 2 ) = N ( m , σ 2 v ) p(b|\sigma^2) = \mathcal{N}(m,\sigma^2 v) p(b∣σ2)=N(m,σ2v)
p ( σ 2 ) = I n v e r s e G a m m a ( a , b ) p(\sigma^2)=InverseGamma(a,b) p(σ2)=InverseGamma(a,b)
演算:
p ( b , σ 2 ) = b a σ 2 ( − a + p 2 + 1 ) ( 2 π ) p 2 ∣ v ∣ 1 2 Γ ( a ) e − ( ( b − m ) T v − 1 ( b − m ) + 2 b ) / 2 v 2 p(b,\sigma^2)=\frac{ b^a \sigma^{2(-a+\frac p 2 + 1)} } { (2\pi)^{\frac p2 } |v|^{\frac 1 2} \Gamma(a)} e^{-((b-m)^T v^{-1} (b-m) + 2b)/2v^2} p(b,σ2)=(2π)2p∣v∣21Γ(a)baσ2(−a+2p+1)e−((b−m)Tv−1(b−m)+2b)/2v2
p ( D ∣ b , σ 2 ) p(D|b,\sigma^2) p(D∣b,σ2)
应该让 p ( b , σ 2 ∣ D ) p(b,\sigma^2|D) p(b,σ2∣D)和 p ( b ∣ σ 2 ) p(b|\sigma^2) p(b∣σ2)有相同的形式,即共轭:
p ( b , σ 2 ∣ D ) = N ( m ^ , v ^ ) I n v e r s e G a m m a ( a ^ , b ^ ) p(b,\sigma^2|D)= \mathcal{N}(\hat{m},\hat{v}) InverseGamma(\hat{a},\hat{b}) p(b,σ2∣D)=N(m^,v^)InverseGamma(a^,b^) ( p ( b , σ 2 ∣ D ) p(b,\sigma^2|D) p(b,σ2∣D)的共轭样子式)
p ( b , σ 2 ∣ D ) p(b,\sigma^2|D) p(b,σ2∣D) 是 Gibbs采样中 提到的 f ( b , σ 2 ) f(b,\sigma^2) f(b,σ2)
p ( b , σ 2 ∣ D ) = p ( D ∣ b , σ 2 ) p ( b , σ 2 ) p ( D ) p(b,\sigma^2|D)=\frac{p(D|b,\sigma^2) p(b,\sigma^2)}{p(D)} p(b,σ2∣D)=p(D)p(D∣b,σ