贝叶斯线性回归
概述
不同于频率派的线性回归 Y = ω T X + ω 0 Y=\omega^TX+\omega_0 Y=ωTX+ω0,贝叶斯学派认为 ω T \omega^T ωT不是一个值固定的常量,而是由输入数据集data决定的一个分布,因此贝叶斯线性回归的预测结果也不是一个固定值,而是一个分布
模型
输入数据集 d a t a = { ( x , y ) ∣ x ∈ R p , y ∈ R } data=\{(x,y)|x\in R^p,y\in R\} data={(x,y)∣x∈Rp,y∈R},定义 X , Y X,Y X,Y之间的映射关系是:
{ f ( x ) = ω T x + ω 0 y = f ( x ) + ϵ , ( ϵ ∼ N ( 0 , σ 2 ) ) \begin{cases} f(x)=\omega^Tx+\omega_0\\y=f(x)+\epsilon,(\epsilon\sim N(0,\sigma^2))\end{cases} {f(x)=ωTx+ω0y=f(x)+ϵ,(ϵ∼N(0,σ2))
其中 ϵ \epsilon ϵ是服从高斯分布的噪声
推断
根据输入数据集求模型参数 ω T \omega^T ωT的分布,即 P ( ω T ∣ X , Y ) P(\omega^T|X,Y) P(ωT∣X,Y)
P ( ω T ∣ X , Y ) = P ( ω T , X , Y ) P ( X , Y ) = P ( Y ∣ ω T , X ) P ( ω T ∣ X ) P ( X ) P ( Y , X ) = P ( Y ∣ ω T , X ) P ( ω T , X ) P ( Y ∣ X ) P(\omega^T|X,Y)={P(\omega^T,X,Y)\over P(X,Y)}={P(Y|\omega^T,X)P(\omega^T|X)P(X)\over P(Y,X)}=\frac {P(Y|\omega^T,X)P(\omega^T,X)}{P(Y|X)} P(ωT∣X,Y)=P(X,Y)P(ωT,X,Y)=P(Y,X)P(Y∣ωT,X)P(ωT∣X)P(X)=P(Y∣X)P(Y∣ωT,X)P(ωT,X)
其中, ω T , X \omega^T,X ωT,X并不相关,因此经常简化为 P ( ω T ∣ X , Y ) = P ( Y ∣ ω T , X ) P ( ω T ) P ( Y ∣ X ) P(\omega^T|X,Y)={P(Y|\omega^T,X)P(\omega^T) \over {P(Y|X)}} P(ωT∣X,Y)=P(Y∣X)P(Y∣ωT,X)P(ωT),其中 P ( Y ∣ ω T , X ) P(Y|\omega^T,X) P(Y∣ωT,X)为似然函数, P ( ω T ) P(\omega^T) P(ωT)为先验概率, P ( ω T ∣ X , Y ) P(\omega^T|X,Y) P(ωT∣X,Y)为后验概率。先验概率通常也指定为高斯分布$P(\omega^T)\sim N(0,\sim \delta^2) , 由 模 型 可 知 ,由模型可知 ,由模型可知X,\omega^T 与 与 与Y 之 间 是 高 斯 线 性 关 系 , 则 似 然 函 数 也 服 从 高 斯 分 布 , 之间是高斯线性关系,则似然函数也服从高斯分布, 之间是高斯线性关系,则似然函数也服从高斯分布,P(Y|X)$是一个定值,又由于高斯分布是自共轭的,所以后验概率也服从高斯分布,通过计算可求出后验概率高斯分布的期望和标准差
预测
即根据输出数据集计算出后验概率之后,根据输入 x ∗ x^* x∗预测 y ∗ y^* y∗的分布
P ( y ∗ ∣ X , Y , x ∗ ) = ∫ ω P ( y ∗ ∣ ω , x ∗ ) P ( o m e g a ∣ X < Y ) d ω P(y^*|X,Y,x^*)=\int^\omega P(y^*|\omega,x^*)P(omega|X<Y)d\omega P(y∗∣X,Y,x∗)=∫ωP(y∗∣ω,x∗)P(omega∣X<Y)dω