19 贝叶斯线性回归

数据集 D = { ( x i , y i ) } i = 1 N , D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N}, D={(xi,yi)}i=1N, 其中 x i ∈ R p , y i ∈ R x_{i} \in \mathbb{R}^{p}, \quad y_{i} \in \mathbb{R} xiRp,yiR
数据矩阵为:(这样可以保证每一行为一个数据点)
X = ( x 1 , x 2 , ⋯   , x N ) T = ( x 1 T x 2 T ⋮ x N T ) = ( x 11 x 12 … x 1 p x 21 x 32 … x 2 p ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 … x N p ) N × P X=\left(x_{1}, x_{2}, \cdots, x_{N}\right)^{T}=\left(\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right)=\left(\begin{array}{cccc} x_{11} & x_{12} & \dots & x_{1 p} \\ x_{21} & x_{32} & \dots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N 1} & x_{N 2} & \dots & x_{N p} \end{array}\right)_{N \times P} X=(x1,x2,,xN)T=x1Tx2TxNT=x11x21xN1x12x32xN2x1px2pxNpN×P
拟合函数我们假设为: f ( x ) = w T x = x T w f(x)=w^{T} x=x^{T} w f(x)=wTx=xTw
预测值 y = f ( x ) + ε , y=f(x)+\varepsilon, y=f(x)+ε, 其中 ε \varepsilon ε 是一个 Guassian Noise , , , 并且 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right) εN(0,σ2)
并且, x , y , ε x, y, \varepsilon x,y,ε 都是 Random variable。

1 背景

1.1 最小二乘估计(Least Square Estimation)

这实际上就是一个利用数据点的极大似然估计 (MLE),并且有一个默认的隐含条件,也就是噪声 ε \varepsilon ε 符合 Gaussian Distribution。我们的目标是通过估计找到 w , w, w, 使得:
w M L E = argmax ⁡ w p ( Data ⁡ ∣ w ) w_{M L E}=\operatorname{argmax}_{w} p(\operatorname{Data} | w) wMLE=argmaxwp(Dataw)
而如果仅仅只是这样来使用,很容易会出现过拟合的问题。所以,我们引入了 Regularized LSE, 也就是正则化最小二乘法。同时也有一个默认的隐含条件,也是噪声 ε \varepsilon ε 符合 Gaussian Distribution。在 Liner Regression 中我们提到了有两种方法来进行思考,也就是 Lasso 和 Ridge Regression。在这里我 们可以使用一个 Bayes 公式,那么:
p ( w ∣ Data ) ∝ p ( Data ∣ w ) p ( w ) w M A P = argmax ⁡ w p ( w ∣ Data ) = argmax ⁡ w p ( Data ∣ w ) p ( w ) \begin{array}{c} p(w | \text {Data}) \propto p(\text {Data} | w) p(w) \\ w_{M A P}=\operatorname{argmax}_{w} p(w | \text {Data})=\operatorname{argmax}_{w} p(\text {Data} | w) p(w) \end{array} p(wData)p(Dataw)p(w)wMAP=argmaxwp(wData)=argmaxwp(Dataw)p(w)
那么假设 p ( w ) p(w) p(w) 符合一个高斯分布 N ( μ 0 , Σ 0 ) \mathcal{N}\left(\mu_{0}, \Sigma_{0}\right) N(μ0,Σ0) 时, 这时是属于 Ridge; 而如果 p ( w ) p(w) p(w) 符合一个 Laplace 分布,这是就是 Lasso。从概率的角度来思考和统计的角度来思想,我们其实获得的结果是一样的,这 在 Linear Regression 中有证明。但是,我们只证明了 Ridge 的部分。

1.2 贝叶斯估计与频率派估计

其实在第一部分,我们讲的都是点估计,频率派估计的部分。因为在这些思路中,我们把参数 w w w当成a unknown random variable。这实际上就是一个优化问题。而在Beyesian method 中,认为 w w w是一个随机变量,也就是一个分布,那么我们求的 w w w 不再是一个数了,而是一个分布。下面我们将要进行Bayes Linear Regression 的部分。

2 Inference

贝叶斯估计方法 (Bayesian Method),可以分为两个步邪,1.Inference,2.Prediction。Inference 的 关键在于估计 posterior ( w ) (w) (w); 而 Predictipn 的关键在于对于给定的 x ∗ x^{*} x 求出预测值 y ∗ y^{*} y

2.1 Bayesian Method 模型建立

首先我们需要对公式使用贝叶斯公式进行分解,便于计算:
p ( w ∣ D a t a ) = p ( w ∣ X , Y ) = p ( w , Y ∣ X ) p ( Y ∣ X ) = p ( Y ∣ X , w ) p ( w ) ∫ w p ( Y ∣ X , w ) p ( w ) d w p(w | D a t a)=p(w | X, Y)=\frac{p(w, Y | X)}{p(Y | X)}=\frac{p(Y | X, w) p(w)}{\int_{w} p(Y | X, w) p(w) d w} p(wData)=p(wX,Y)=p(YX)p(w,YX)=wp(YX,w)p(w)dwp(YX,w)p(w)
其中 p ( Y ∣ X , w ) p(Y | X, w) p(YX,w) 是似然函数 (likelihood function) , p ( w ) , p(w) ,p(w) 是一个先验函数 (prior function)。实际 这里省略了一个过程, p ( w , Y ∣ X ) = p ( Y ∣ X , w ) p ( w ∣ X ) p(w, Y | X)=p(Y | X, w) p(w | X) p(w,YX)=p(YX,w)p(wX) 。但是很显然, p ( w ∣ X ) p(w | X) p(wX) X X X w w w 之间并没有 直接的联系。所以 p ( w ∣ X ) = p ( w ) p(w | X)=p(w) p(wX)=p(w) 似然函数的求解过程为:
p ( Y ∣ X , w ) = ∏ i = 1 N p ( y i ∣ x i , w ) p(Y | X, w)=\prod_{i=1}^{N} p\left(y_{i} | x_{i}, w\right) p(YX,w)=i=1Np(yixi,w)
又因为 y = w T x + ε , y=w^{T} x+\varepsilon, y=wTx+ε, 并且 ε ∼ N ( 0 , σ 2 ) 。 \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right) 。 εN(0,σ2) 所以
p ( y i ∣ x i , w ) = N ( w T x i , σ 2 ) p\left(y_{i} | x_{i}, w\right)=\mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right) p(yixi,w)=N(wTxi,σ2)
所以,
p ( Y ∣ X , w ) = ∏ i = 1 N p ( y i ∣ x i , w ) = ∏ i = 1 N N ( w T x i , σ 2 ) p(Y | X, w)=\prod_{i=1}^{N} p\left(y_{i} | x_{i}, w\right)=\prod_{i=1}^{N} \mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right) p(YX,w)=i=1Np(yixi,w)=i=1NN(wTxi,σ2)
而下一步,我们 w w w的先验,为方便起见,假设 p ( w ) = N ( 0 , Σ p ) p(w)=\mathcal{N}\left(0, \Sigma_{p}\right) p(w)=N(0,Σp) 。又因为 p ( Y ∣ X ) p(Y | X) p(YX) 与参数 w w w 无关,所以这是一个定值。所以,我们可以将公式改写为:
p ( w ∣ X , Y ) ∝ p ( Y ∣ w , X ) p ( w ) p(w | X, Y) \propto p(Y | w, X) p(w) p(wX,Y)p(Yw,X)p(w)
在这里我们将使用到一个共轭的技巧,因为 likelihood function 和 prior function 都是 Gaussian Distribution,所有 posterior 也一定是 Gaussian Distribution。所以,我们可以将公式改写为:
p ( w ∣ Data ) ∼ N ( μ w , Σ w ) ∝ ∏ i = 1 N N ( w T x i , σ 2 ) N ( 0 , Σ p ) p(w | \text {Data}) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto \prod_{i=1}^{N} \mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right) \mathcal{N}\left(0, \Sigma_{p}\right) p(wData)N(μw,Σw)i=1NN(wTxi,σ2)N(0,Σp)
我们的目的就是求解 μ w = ? , Σ w = ? \mu_{w}=?, \Sigma_{w}=? μw=?,Σw=?
对于 likelihood function 的化简如下所示:
p ( Y ∣ X , w ) = ∏ i = 1 N 1 ( 2 π ) 1 2 σ exp ⁡ { − 1 2 σ 2 ( y i − w T x i ) 2 } = 1 ( 2 π ) N 2 σ N exp ⁡ { − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 } \begin{aligned} p(Y | X, w) &=\prod_{i=1}^{N} \frac{1}{(2 \pi)^{\frac{1}{2}} \sigma} \exp \left\{-\frac{1}{2 \sigma^{2}}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \\ &=\frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \end{aligned} p(YX,w)=i=1N(2π)21σ1exp{2σ21(yiwTxi)2}=(2π)2NσN1exp{2σ21i=1N(yiwTxi)2}

2.2 模型的求解

对于likelihood function 的化简如下所示:
p ( Y ∣ X , w ) = ∏ i = 1 N 1 ( 2 π ) 1 2 σ exp ⁡ { − 1 2 σ 2 ( y i − w T x i ) 2 } = 1 ( 2 π ) N 2 σ N exp ⁡ { − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 } \begin{aligned} p(Y | X, w) &=\prod_{i=1}^{N} \frac{1}{(2 \pi)^{\frac{1}{2}} \sigma} \exp \left\{-\frac{1}{2 \sigma^{2}}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \\ &=\frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \end{aligned} p(YX,w)=i=1N(2π)21σ1exp{2σ21(yiwTxi)2}=(2π)2NσN1exp{2σ21i=1N(yiwTxi)2}
下一步,我们希望将 ∑ i = 1 N ( y i − w T x i ) 2 \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2} i=1N(yiwTxi)2 改写成矩阵相乘的形式
∑ i = 1 N ( y i − w T x i ) 2 = [ y 1 − w T x 1 y 2 − w T x 2 ⋯ y i − w T x i ] [ y 1 − w T x 1 y 2 − w T x 2 ⋮ y i − w T x i ] = ( Y T − W T X T ) ( Y T − W T X T ) T = ( Y T − W T X T ) ( Y − X W ) \begin{aligned} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2} &=\left[\begin{array}{llll} y_{1}-w^{T} x_{1} & y_{2}-w^{T} x_{2} & \cdots & y_{i}-w^{T} x_{i} \end{array}\right]\left[\begin{array}{c} y_{1}-w^{T} x_{1} \\ y_{2}-w^{T} x_{2} \\ \vdots \\ y_{i}-w^{T} x_{i} \end{array}\right] \\ &=\left(Y^{T}-W^{T} X^{T}\right)\left(Y^{T}-W^{T} X^{T}\right)^{T} \\ &=\left(Y^{T}-W^{T} X^{T}\right)(Y-X W) \end{aligned} i=1N(yiwTxi)2=[y1wTx1y2wTx2yiwTxi]y1wTx1y2wTx2yiwTxi=(YTWTXT)(YTWTXT)T=(YTWTXT)(YXW)所以,
p ( Y ∣ X , w ) = 1 ( 2 π ) N 2 σ N exp ⁡ { − 1 2 σ 2 ∑ i = 1 N ( Y T − W T X T ) ( Y − X W ) } = 1 ( 2 π ) N 2 σ N exp ⁡ { − 1 2 ∑ i = 1 N ( Y T − W T X T ) σ − 2 I ( Y − X W ) } p ( Y ∣ X , w ) ∼ N ( W X , σ − 2 I ) \begin{aligned} p(Y | X, w)=& \frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(Y^{T}-W^{T} X^{T}\right)(Y-X W)\right\} \\ =& \frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2} \sum_{i=1}^{N}\left(Y^{T}-W^{T} X^{T}\right) \sigma^{-2} I(Y-X W)\right\} \\ & p(Y | X, w) \sim \mathcal{N}\left(W X, \sigma^{-2} I\right) \end{aligned} p(YX,w)==(2π)2NσN1exp{2σ21i=1N(YTWTXT)(YXW)}(2π)2NσN1exp{21i=1N(YTWTXT)σ2I(YXW)}p(YX,w)N(WX,σ2I)
那么,将化简后的结果带入有:
p ( w ∣ D  ata  ) ∼ N ( μ w , Σ w ) ∝ N ( W X , σ 2 I ) N ( 0 , Σ p ) p(w | D \text { ata }) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto \mathcal{N}\left(W X, \sigma^{2} I\right) \mathcal{N}\left(0, \Sigma_{p}\right) p(wD ata )N(μw,Σw)N(WX,σ2I)N(0,Σp)

N ( W X , σ 2 I ) N ( 0 , Σ p ) ∝ exp ⁡ { − 1 2 ( Y − W X ) T σ − 2 I ( Y − W X ) − 1 2 w T Σ p − 1 w } = exp ⁡ { − 1 2 σ 2 ( Y T Y − 2 Y T X W + W T X T X W ) − 1 2 W T Σ p − 1 W } \begin{aligned} \mathcal{N}\left(W X, \sigma^{2} I\right) \mathcal{N}\left(0, \Sigma_{p}\right) & \propto \exp \left\{-\frac{1}{2}(Y-W X)^{T} \sigma^{-2} I(Y-W X)-\frac{1}{2} w^{T} \Sigma_{p}^{-1} w\right\} \\ &=\exp \left\{-\frac{1}{2 \sigma^{2}}\left(Y^{T} Y-2 Y^{T} X W+W^{T} X^{T} X W\right)-\frac{1}{2} W^{T} \Sigma_{p}^{-1} W\right\} \end{aligned} N(WX,σ2I)N(0,Σp)exp{21(YWX)Tσ2I(YWX)21wTΣp1w}=exp{2σ21(YTY2YTXW+WTXTXW)21WTΣp1W}
那么这个公式长得怎么的难如我们怎么确定我们想要的 μ w , Σ w \mu_{w}, \Sigma_{w } μw,Σw。 由于知道 posterior 必然是一个 高斯分布,那么我们采用待定系数法来类比确定参数的值即可。对于一个分布 p ( x ) ∼ N ( μ , Σ ) , p(x) \sim \mathcal{N}(\mu, \Sigma), p(x)N(μ,Σ), 他的 指数部分为:
exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } = exp ⁡ { − 1 2 ( x T Σ − 1 x − 2 μ T Σ − 1 x + Δ ) } \exp \left\{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right\}=\exp \left\{-\frac{1}{2}\left(x^{T} \Sigma^{-1} x-2 \mu^{T} \Sigma^{-1} x+\Delta\right)\right\} exp{21(xμ)TΣ1(xμ)}=exp{21(xTΣ1x2μTΣ1x+Δ)}
常数部分已经不重要了,对于我们的求解来说没有任何的用处,所以,我们直接令它为 Δ \Delta Δ。那么, 我们类比一下就可以得到,
x T Σ − 1 x = W T σ − 2 X T X W + W T Σ p − 1 W x^{T} \Sigma^{-1} x=W^{T} \sigma^{-2} X^{T} X W+W^{T} \Sigma_{p}^{-1} W xTΣ1x=WTσ2XTXW+WTΣp1W
所以,我们可以得到 Σ w − 1 = σ − 2 X T X + Σ p − 1 \Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1} Σw1=σ2XTX+Σp1 。并且, 我们令 Σ w − 1 = A \Sigma_{w}^{-1}=A Σw1=A
从二次项中我们得到了 Σ w − 1 \Sigma_{w}^{-1} Σw1 那么,下一步,我们期望可以从一次项中得到 μ A \mu_{A} μA 的偵。我们将 次项提取出来进行观察,可以得到。
μ T A = σ − 2 Y T X ( μ T A ) T = ( σ − 2 Y T X ) T A T μ = σ − 2 X T Y μ = σ − 2 ( A T ) − 1 X T Y \begin{aligned} \mu^{T} A &=\sigma^{-2} Y^{T} X \\ \left(\mu^{T} A\right)^{T} &=\left(\sigma^{-2} Y^{T} X\right)^{T} \\ A^{T} \mu &=\sigma^{-2} X^{T} Y \\ \mu &=\sigma^{-2}\left(A^{T}\right)^{-1} X^{T} Y \end{aligned} μTA(μTA)TATμμ=σ2YTX=(σ2YTX)T=σ2XTY=σ2(AT)1XTY又因为, Σ w \Sigma_w Σw 是一个方差矩阵,那么他一定是对称的,所以 A T = A ∙ A^{T}=A_{\bullet} AT=A 于是
μ m = σ − 2 A − 1 X T Y \mu_{m}=\sigma^{-2} A^{-1} X^{T} Y μm=σ2A1XTY

2.3小结

我们利用贝叶斯推断的方法来确定参数之间的分布,也就是确定 p ( W ∣ X , Y ) p(W | X, Y) p(WX,Y) 。我们使用 Bayes 的 方法,确定为 p ( W ∣ X , Y ) ∝ p ( Y ∣ W , X ) p ( W ) p(W | X, Y) \propto p(Y | W, X) p(W) p(WX,Y)p(YW,X)p(W) 。并且确定一个噪声分布 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right) εN(0,σ2) 。那么,
p ( Y ∣ W , X ) ∼ N ( W T X , σ 2 ) P ( W ) ∼ N ( 0 , Σ p ) \begin{aligned} p(Y | W, X) & \sim \mathcal{N}\left(W^{T} X, \sigma^{2}\right) \\ P(W) & \sim \mathcal{N}\left(0, \Sigma_{p}\right) \end{aligned} p(YW,X)P(W)N(WTX,σ2)N(0,Σp)
通过推导,我们可以得出,
p ( W ∣ X , Y ) ∼ N ( μ w , Σ w ) p(W | X, Y) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) p(WX,Y)N(μw,Σw)
其中,
Σ w − 1 = σ − 2 X T X + Σ p − 1 μ m = σ − 2 A − 1 X T Y Σ w − 1 = A \Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1} \quad \mu_{m}=\sigma^{-2} A^{-1} X^{T} Y \quad \Sigma_{w}^{-1}=A Σw1=σ2XTX+Σp1μm=σ2A1XTYΣw1=A

3 Prediction & Conclusion

根据上一节中提到的 Inference,我们已经成功的推断出了 p ( w ∣ D a t a ) p(w | D a t a) p(wData) 的分布。表述如下所示:
p ( W ∣ X , Y ) ∼ N ( μ w , Σ w ) p(W | X, Y) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) p(WX,Y)N(μw,Σw)
其中,
Σ w − 1 = σ − 2 X T X + Σ p − 1 μ m = σ − 2 A − 1 X T Y Σ w − 1 = A \Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1} \quad \mu_{m}=\sigma^{-2} A^{-1} X^{T} Y \quad \Sigma_{w}^{-1}=A Σw1=σ2XTX+Σp1μm=σ2A1XTYΣw1=A
而我们的 Prediction 过程,可以被描述为,给定一个 x ∗ x^{*} x 如果计算得到 y ∗ y^{*} y 。而我们的模型建立如
下所示:
{ f ( x ) = w T X = x T w y = f ( x ) + ε ε ∼ N ( 0 , σ 2 ) \left\{\begin{array}{l} f(x)=w^{T} X=x^{T} w \\ y=f(x)+\varepsilon \end{array} \quad \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)\right. {f(x)=wTX=xTwy=f(x)+εεN(0,σ2)

3.1 Prediction

模型预测的第一步为,
f ( x ∗ ) = x ∗ T w f\left(x^{*}\right)=x^{* T} w f(x)=xTw
而在 Inference 部分,我们得到了 p ( w ∣ D ata ) ∼ N ( μ w , Σ w ) p(w | D \text {ata}) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) p(wData)N(μw,Σw) 。所以,我们可以推断出,
f ( x ∗ ) = x ∗ T w ∼ N ( x ∗ T μ w , x ∗ T Σ w x ∗ )      ( 5 ) f\left(x^{*}\right)=x^{* T} w \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}\right) \ \ \ \ (5) f(x)=xTwN(xTμw,xTΣwx)    (5)
那么公式 (5) 我们可以写作:
p ( f ( x ∗ ) ∣ Data , x ∗ ) ∼ N ( x ∗ T μ w , x ∗ T Σ w x ∗ ) p\left(f\left(x^{*}\right) | \text {Data}, x^{*}\right) \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}\right) p(f(x)Data,x)N(xTμw,xTΣwx)
又因为 y = f ( x ) + ε , y=f(x)+\varepsilon, y=f(x)+ε, 所以
p ( y ∗ ∣ Data , x ∗ ) ∼ N ( x ∗ T μ w , x ∗ T Σ w x ∗ + σ 2 ) p\left(y^{*} | \text {Data}, x^{*}\right) \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}+\sigma^{2}\right) p(yData,x)N(xTμw,xTΣwx+σ2)
那么计算到这里,我们的模型预测也算是完成了。

3.2 Conclusion

Data: D = { ( x i , y i ) } i = 1 N , D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N}, D={(xi,yi)}i=1N, 其中 x i ∈ R p , y i ∈ R 0 x_{i} \in \mathbb{R}^{p}, y_{i} \in \mathbb{R}_{0} xiRp,yiR0
Model:
{ f ( x ) = w T X = x T w y = f ( x ) + ε ε ∼ N ( 0 , σ 2 ) \left\{\begin{array}{l} f(x)=w^{T} X=x^{T} w \\ y=f(x)+\varepsilon \end{array} \quad \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)\right. {f(x)=wTX=xTwy=f(x)+εεN(0,σ2)
Bayesian Method: w 不在是一个末知的常数,w 而是一个概率分布。贝叶斯线性分类可以被分成 两个部分,Inference 和 Prediction。

  1. Inference: p ( w ∣  Data  ) p(w | \text { Data }) p(w Data ) 是一个 posterior 分布,假定 p ( w ∣ D  ata  ) ∼ N ( μ w , Σ w ) ∝ p(w | D \text { ata }) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto p(wD ata )N(μw,Σw) likelihood x x x prior 。这里使用了共轭的小技巧,得到 posterior 一定是一个 Gaussian Distribution。在这一步中,我 们的关键是求出 μ w = ? , Σ w = ? \mu_{w}=?, \Sigma_{w}=? μw=?,Σw=?
  2. Prediction:这个问题实际上也就是,给定一个 x ∗ x^{*} x 如果计算得到 y ∗ y^{*} y 。我们可以描述为:
    p ( y ∗ ∣ Data , x ∗ ) = ∫ w p ( y ∗ ∣ w ,  Data,  x ∗ ) p ( w ∣ Data , x ∗ ) d w p\left(y^{*} | \text {Data}, x^{*}\right)=\int_{w} p\left(y^{*} | w, \text { Data, } x^{*}\right) p\left(w | \text {Data}, x^{*}\right) d w p(yData,x)=wp(yw, Data, x)p(wData,x)dw
    又因为,w 就是从 Data 中引出的,所以 p ( y ∗ ∣ w , D a t a , x ∗ ) = p ( y ∗ ∣ w , x ∗ ) p\left(y^{*} | w, D a t a, x^{*}\right)=p\left(y^{*} | w, x^{*}\right) p(yw,Data,x)=p(yw,x), 并且, w w w 的获得与 x ∗ x^{*} x 没有关系,所以 p ( w ∣ D a t a ) 。 p(w | D a t a) 。 p(wData) 所以,
    p ( y ∗ ∣ Data , x ∗ ) = ∫ w p ( y ∗ ∣ w , x ∗ ) p ( w ∣ D a t a ) d w = E w ∼ p ( w ∣ D a t a ) [ p ( y ∗ ∣ w , x ∗ ) ] p\left(y^{*} | \text {Data}, x^{*}\right)=\int_{w} p\left(y^{*} | w, x^{*}\right) p(w | D a t a) d w=\mathbb{E}_{w \sim p(w | D a t a)}\left[p\left(y^{*} | w, x^{*}\right)\right] p(yData,x)=wp(yw,x)p(wData)dw=Ewp(wData)[p(yw,x)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值