文章目录
1.线性回归
1.1 背景
这里我们先回顾下我们之前的线性回归相关理论,假设我们有一组数据集合如下:
D
=
{
(
x
i
,
x
j
)
}
i
=
1
N
,
其
中
x
i
∈
R
p
,
y
i
∈
R
(1)
D=\{(x_i,x_j)\}_{i=1}^{N},其中 x_i \in\mathbb{R}^p,y_i\in \mathbb{R}\tag{1}
D={(xi,xj)}i=1N,其中xi∈Rp,yi∈R(1)
其中 样本X 为 N X P 维矩阵,具体表示如下:
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
⋮
⋮
⋮
⋮
x
N
1
x
N
2
.
.
.
x
N
p
)
N
×
P
(2)
X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag{2}
X=(x1,x2,...,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2......⋮...x1px2p⋮xNp⎠⎟⎟⎟⎞N×P(2)
Y
=
(
y
1
,
y
2
,
.
.
.
,
y
N
)
T
=
(
y
1
T
y
2
T
⋮
y
N
T
)
N
×
1
(3)
Y=(y_1,y_2,...,y_N)^T= \begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}_{N\times 1}\tag{3}
Y=(y1,y2,...,yN)T=⎝⎜⎜⎜⎛y1Ty2T⋮yNT⎠⎟⎟⎟⎞N×1(3)
线性回归就是需要找到一个函数去拟合所有的样本点,常见的拟合方式有最小二乘法,为了避免过拟合,我们一般通过加正则项来约束方程,使得最后的结果不至于太差。
我们的拟合函数如下:
f
(
x
)
=
w
T
x
=
x
T
w
(4)
f(x)=w^Tx=x^Tw \tag{4}
f(x)=wTx=xTw(4)
对于预测值 y 来说,满足如下:
y
=
f
(
x
)
+
ε
,
ε
∼
(
0
,
σ
2
)
(5)
y = f(x)+\varepsilon,\varepsilon \sim(0,\sigma^2)\tag{5}
y=f(x)+ε,ε∼(0,σ2)(5)
- 注:其中 x , y , ε x,y,\varepsilon x,y,ε 都是随机变量
1.2 思维导图
为了用一个函数去拟合所有的样本,我们一般都是用 最小二乘估计方法 (LSE), 从几何意义出发,得到 估计值 W ,从概率视角来看,最小二乘估计就相当于极大似然估计,且噪声为高斯分布。为了解决最小二乘估计的过拟合问题,我们引出了具有正则化的最小二乘估计(Regularized-LSE),根据正则化的项不同可以分为 Lasso回归 和 Ridge回归 两种方式;从概率角度来看,具有正则化的最小二乘估计(Regularized-LSE)就相当于 概率里面的最大后验估计(MAP),且噪声为高斯分布;
MAP & noise is guassian 公式如下:
P
(
w
∣
d
a
t
a
)
⏟
p
o
s
t
e
r
i
o
r
∝
P
(
d
a
t
a
∣
w
)
⏟
l
i
k
e
l
i
h
o
o
d
⋅
P
(
w
)
⏟
P
r
i
o
r
(6)
\underbrace{P(w|data)}_{posterior} \propto \underbrace{P(data|w)}_{likelihood}·\underbrace{P(w)}_{Prior}\tag{6}
posterior
P(w∣data)∝likelihood
P(data∣w)⋅Prior
P(w)(6)
- MAP for w:
w M A P = arg max w P ( w ∣ d a t a ) = arg max w P ( d a t a ∣ w ) ⋅ P ( w ) (7) w_{MAP}=\argmax\limits_{w}P(w|data)=\argmax\limits_{w}P(data|w)·P(w)\tag{7} wMAP=wargmaxP(w∣data)=wargmaxP(data∣w)⋅P(w)(7) - 如果先验为高斯分布,那么对应的就是 Ridge 回归
- 如果先验为 Laplace 分布,那么对应的就是 Lasso 回归
总体来说,对于最小二乘估计(LSE) 和 正则化的最小二乘估计 (Regularized-LSE) 均属于点估计,是属于频率派的方法,其中 w 是未知的常数,并且最终转换成一个优化问题,具体公式如下:
w
M
L
E
=
arg max
w
P
(
d
a
t
a
∣
w
)
(8)
w_{MLE}=\argmax\limits_{w}P(data|w)\tag{8}
wMLE=wargmaxP(data∣w)(8)
w
M
A
P
=
arg max
w
P
(
d
a
t
a
∣
w
)
⋅
P
(
w
)
(9)
w_{MAP}=\argmax\limits_{w}P(data|w)·P(w)\tag{9}
wMAP=wargmaxP(data∣w)⋅P(w)(9)
1.3 贝叶斯估计与最小二乘法的区别
以上两种方法为点估计,现在我们引入贝叶斯方法(Bayesian-Method),而贝叶斯方法就不是点估计,而是属于贝叶斯派,那么此时的 w 就是 随机变量,此时我们就需要估计出分布 P(w|data)。
2. 贝叶斯方法
2.1 inference 和 prediction
贝叶斯方法(Bayesian-Method)包含两个部分,第一部分为 inference 和 prediction;其中 inference 指的是 求关于数据的后验Posterior: P ( w ∣ d a t a ) P(w|data) P(w∣data) ,此时 w 是一个分布,而不是一个常量; 其中 Prediction 指的是 在给定 x ∗ x^* x∗ 时,我们求解出对应的 y ∗ y^* y∗ .
2.2 inference
我们知道了 inference 指的是求解后验Posterior:
P
(
w
∣
d
a
t
a
)
P(w|data)
P(w∣data),公式如下:
P
(
w
∣
d
a
t
a
)
=
P
(
w
∣
X
,
Y
)
=
P
(
W
,
Y
∣
X
)
P
(
Y
∣
X
)
=
P
(
Y
∣
X
,
W
)
⋅
P
(
W
)
∫
w
P
(
Y
∣
X
,
W
)
⋅
P
(
W
)
d
w
(10)
P(w|data)=P(w|X,Y)=\frac{P(W,Y|X)}{P(Y|X)}=\frac{P(Y|X,W)·P(W)}{\int_w P(Y|X,W)·P(W)dw}\tag{10}
P(w∣data)=P(w∣X,Y)=P(Y∣X)P(W,Y∣X)=∫wP(Y∣X,W)⋅P(W)dwP(Y∣X,W)⋅P(W)(10)
我们可以看作
∫
w
P
(
Y
∣
X
,
W
)
⋅
P
(
W
)
d
w
\int_w P(Y|X,W)·P(W)dw
∫wP(Y∣X,W)⋅P(W)dw 为积分常量,所以可得如下:
P
(
w
∣
d
a
t
a
)
∝
P
(
Y
∣
X
,
W
)
⋅
P
(
W
)
(11)
P(w|data)\propto P(Y|X,W)·P(W)\tag{11}
P(w∣data)∝P(Y∣X,W)⋅P(W)(11)
为了解决上述问题,我们需要求解出
P
(
Y
∣
W
,
X
)
P(Y|W,X)
P(Y∣W,X) 模型的相关参数,公式如下:
P
(
Y
∣
W
,
X
)
=
∏
i
=
1
N
P
(
y
i
∣
w
i
,
x
i
)
=
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
(12)
P(Y|W,X)=\prod_{i=1}^NP(y_i|w_i,x_i)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)\tag{12}
P(Y∣W,X)=i=1∏NP(yi∣wi,xi)=i=1∏NN(yi∣wTxi,σ2)(12)
我们知道
y
=
w
T
x
+
ε
;
ε
∼
(
0
,
σ
2
)
y=w^Tx+\varepsilon;\varepsilon\sim(0,\sigma^2)
y=wTx+ε;ε∼(0,σ2),所以可得P(Y|W,X)分布:
P
(
y
∣
w
,
x
)
∼
N
(
y
i
∣
w
T
x
i
,
σ
2
)
(13)
P(y|w,x)\sim N(y_i|w^Tx_i,\sigma^2)\tag{13}
P(y∣w,x)∼N(yi∣wTxi,σ2)(13)
我们定义先验 P(W)服从高斯分布如下:
P
(
W
)
∼
N
(
0
,
Σ
p
)
P(W)\sim N(0,\Sigma_p)
P(W)∼N(0,Σp) ;这是我们任意给的,合理即可;
由高斯共轭性可得,当两个分布为高斯分布时,那么其组合为高斯分布:
P
(
W
∣
d
a
t
a
)
⏟
G
u
a
s
s
i
a
n
∝
P
(
Y
∣
X
,
W
)
⏟
G
u
a
s
s
i
a
n
⋅
P
(
W
)
⏟
G
u
a
s
s
i
a
n
(14)
\underbrace{P(W|data)}_{Guassian}\propto \underbrace{P(Y|X,W)}_{Guassian}·\underbrace{P(W)}_{Guassian}\tag{14}
Guassian
P(W∣data)∝Guassian
P(Y∣X,W)⋅Guassian
P(W)(14)
那么可以得如下:
P
(
W
∣
d
a
t
a
)
∝
P
(
Y
∣
X
,
W
)
⋅
P
(
W
)
=
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
⋅
N
(
0
,
Σ
p
)
(15)
P(W|data)\propto P(Y|X,W)·P(W)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)·N(0,\Sigma_p)\tag{15}
P(W∣data)∝P(Y∣X,W)⋅P(W)=i=1∏NN(yi∣wTxi,σ2)⋅N(0,Σp)(15)
由高斯分布的共轭性可得,P(W|data)一定为高斯分布,假设期望为
μ
w
\mu_w
μw,方差为
Σ
w
\Sigma_w
Σw
P
(
W
∣
d
a
t
a
)
=
N
(
μ
w
,
Σ
w
)
∝
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
⋅
N
(
0
,
Σ
p
)
(16)
P(W|data)=N(\mu_w,\Sigma_w)\propto\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)·N(0,\Sigma_p)\tag{16}
P(W∣data)=N(μw,Σw)∝i=1∏NN(yi∣wTxi,σ2)⋅N(0,Σp)(16)
2.2.1 求解 P(W|data)的参数
- 已知
P
(
Y
∣
X
,
W
)
=
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
P(Y|X,W)=\prod_{i=1}^N N(y_i|w^Tx_i,\sigma^2)
P(Y∣X,W)=∏i=1NN(yi∣wTxi,σ2),可得概率密度如下:
P ( Y ∣ X , W ) = ∏ i = 1 N 1 ( 2 π ) 1 2 σ e x p { − 1 2 σ 2 ( y i − w T x i ) 2 } (17) P(Y|X,W)=\prod_{i=1}^N \frac{1}{(2\pi)^{\frac{1}{2}}\sigma}exp\{-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2\}\tag{17} P(Y∣X,W)=i=1∏N(2π)21σ1exp{−2σ21(yi−wTxi)2}(17)
P ( Y ∣ X , W ) = 1 ( 2 π ) N 2 σ N e x p { − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 } (18) P(Y|X,W)= \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}exp\{-\frac{1}{2\sigma^2}\sum_{i=1}^N(y_i-w^Tx_i)^2\}\tag{18} P(Y∣X,W)=(2π)2NσN1exp{−2σ21i=1∑N(yi−wTxi)2}(18) - 转换成矩阵形式如下:
P ( Y ∣ X , W ) = 1 ( 2 π ) N 2 σ N e x p { − 1 2 ( Y − X W ) T σ − 2 I ( Y − X W ) } (19) P(Y|X,W)= \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}exp\{-\frac{1}{2}(Y-XW)^T\sigma^{-2}I(Y-XW)\}\tag{19} P(Y∣X,W)=(2π)2NσN1exp{−21(Y−XW)Tσ−2I(Y−XW)}(19) - 所以可得:
P ( Y ∣ X , W ) ∼ N ( X W , σ − 2 I ) P(Y|X,W)\sim N(XW,\sigma^{-2}I) P(Y∣X,W)∼N(XW,σ−2I) - 故可得
P
(
W
∣
X
,
Y
)
P(W|X,Y)
P(W∣X,Y)如下:
P ( W ∣ X , Y ) ∝ N ( X W , σ − 2 I ) ⋅ N ( 0 , Σ p ) (20) P(W|X,Y)\propto N(XW,\sigma^{-2}I)·N(0,\Sigma_p)\tag{20} P(W∣X,Y)∝N(XW,σ−2I)⋅N(0,Σp)(20)
由高斯概率密度函数可得,我们其实只需要关注指数部分的参数即可,得如下: -
N
(
X
W
,
σ
−
2
I
)
N(XW,\sigma^{-2}I)
N(XW,σ−2I)的指数部分
e x p { − 1 2 ( Y − X W ) T σ − 2 I ( Y − X W ) } (21) exp\{-\frac{1}{2}(Y-XW)^T\sigma^{-2}I(Y-XW)\}\tag{21} exp{−21(Y−XW)Tσ−2I(Y−XW)}(21) -
N
(
0
,
Σ
p
)
N(0,\Sigma_p)
N(0,Σp)的指数部分
e x p { − 1 2 W T Σ p − 1 W } (22) exp\{-\frac{1}{2}W^T\Sigma_p^{-1}W\}\tag{22} exp{−21WTΣp−1W}(22) -
P
(
W
∣
X
,
Y
)
P(W|X,Y)
P(W∣X,Y)的指数部分:
e x p { − 1 2 σ 2 ( Y T − W T X T ) ( Y − X W ) − 1 2 W T Σ p − 1 W } exp\{-\frac{1}{2\sigma^2}(Y^T-W^TX^T)(Y-XW)-\frac{1}{2}W^T\Sigma_p^{-1}W\} exp{−2σ21(YT−WTXT)(Y−XW)−21WTΣp−1W}
e x p { − 1 2 σ 2 ( Y T Y − Y T X W − W T X T Y + W T X T X W ) − 1 2 W T Σ p − 1 W } exp\{-\frac{1}{2\sigma^2}(Y^TY-Y^TXW-W^TX^TY+W^TX^TXW)-\frac{1}{2}W^T\Sigma_p^{-1}W\} exp{−2σ21(YTY−YTXW−WTXTY+WTXTXW)−21WTΣp−1W} - 因为
Y
T
X
W
=
W
T
X
T
Y
Y^TXW=W^TX^TY
YTXW=WTXTY
e x p { − 1 2 σ 2 ( Y T Y − 2 Y T X W + W T X T X W ) − 1 2 W T Σ p − 1 W } (23) exp\{-\frac{1}{2\sigma^2}(Y^TY-2Y^TXW+W^TX^TXW)-\frac{1}{2}W^T\Sigma_p^{-1}W\}\tag{23} exp{−2σ21(YTY−2YTXW+WTXTXW)−21WTΣp−1W}(23) - 我们用配方法求解,令
P
(
X
w
)
=
N
(
μ
w
,
Σ
w
)
P(X_w)=N(\mu_w,\Sigma_w)
P(Xw)=N(μw,Σw),其对应的概率密度函数指数部分如下:
e x p { − 1 2 ( X − μ w ) T Σ w − 1 ( X − μ w ) } (24) exp\{-\frac{1}{2}(X-\mu_w)^T\Sigma^{-1}_w(X-\mu_w)\}\tag{24} exp{−21(X−μw)TΣw−1(X−μw)}(24) - 展开后可得如下:
e x p { − 1 2 ( X T Σ w − 1 X ⏟ Q u a d r a t i c − f o r m − X − 2 μ w T Σ w − 1 X ⏟ l i n e a r i t y + △ ⏟ o t h e r s ) } (25) exp\{-\frac{1}{2}(\underbrace{X^T\Sigma^{-1}_{w}X}_{Quadratic-form-X}-\underbrace{2\mu_w^T\Sigma^{-1}_wX}_{linearity}+\underbrace{\triangle}_{others})\}\tag{25} exp{−21(Quadratic−form−X XTΣw−1X−linearity 2μwTΣw−1X+others △)}(25)
这样我们就可以通过配方法求解上述参数。 - 那么我们由公式23可得关于 W 的二次项为如下:
− 1 2 σ 2 W T X T X W − 1 2 W T Σ p − 1 W = − 1 2 [ W T ( σ − 2 X T X + Σ p − 1 ) ⏟ Σ w − 1 = A W ] (26) -\frac{1}{2\sigma^2}W^TX^TXW-\frac{1}{2}W^T\Sigma_p^{-1}W=-\frac{1}{2}[W^T\underbrace{(\sigma^{-2}X^TX+\Sigma^{-1}_p)}_{\Sigma_w^{-1}=A}W]\tag{26} −2σ21WTXTXW−21WTΣp−1W=−21[WTΣw−1=A (σ−2XTX+Σp−1)W](26) - 关于 W 的一次项为如下:
− 1 2 σ 2 ⋅ ( − 2 Y T X W ) = σ − 2 Y T X ⏟ μ w T Σ w − 1 = σ − 2 Y T X = μ w T A W (27) -\frac{1}{2\sigma^2}·(-2Y^TXW)=\underbrace{\sigma^{-2}Y^TX}_{\mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX=\mu_w^TA}W\tag{27} −2σ21⋅(−2YTXW)=μwTΣw−1=σ−2YTX=μwTA σ−2YTXW(27) - 化简
A μ w = σ − 2 X T Y (28) A\mu_w=\sigma^{-2}X^TY\tag{28} Aμw=σ−2XTY(28)
μ w = σ − 2 A − 1 X T Y (29) \mu_w=\sigma^{-2}A^{-1}X^TY\tag{29} μw=σ−2A−1XTY(29)
2.2.2 inference 结论
P
(
W
∣
d
a
t
a
)
=
N
(
μ
w
,
Σ
w
)
(30)
P(W|data)=N(\mu_w,\Sigma_w)\tag{30}
P(W∣data)=N(μw,Σw)(30)
μ
w
=
σ
−
2
A
−
1
X
T
Y
(31)
\mu_w=\sigma^{-2}A^{-1}X^TY\tag{31}
μw=σ−2A−1XTY(31)
Σ
w
=
A
−
1
;
(
t
i
p
s
:
A
=
σ
−
2
X
T
X
+
Σ
p
−
1
)
(32)
\Sigma_w=A^{-1};\quad(tips:A=\sigma^{-2}X^TX+\Sigma^{-1}_p)\tag{32}
Σw=A−1;(tips:A=σ−2XTX+Σp−1)(32)
2.3 Prediction
所谓的预测问题(Prediction),就是在已知模型参数W(注:模型通过学习已经做完了inference)的情况下,当客户提供一个 X ∗ X^* X∗,我们去预测与之对应的 Y ∗ Y^* Y∗
2.3.1 模型
f
(
x
)
=
W
T
X
=
X
T
W
(33)
f(x)=W^TX=X^TW\tag{33}
f(x)=WTX=XTW(33)
y
=
f
(
x
)
+
ε
;
ε
∼
N
(
0
,
σ
2
)
(34)
y=f(x)+\varepsilon;\quad\varepsilon\sim N(0,\sigma^2)\tag{34}
y=f(x)+ε;ε∼N(0,σ2)(34)
现在我们先求解
f
(
x
∗
)
f(x^*)
f(x∗):
f
(
x
∗
)
=
x
∗
T
W
(35)
f(x^*)={x^*}^{T}W\tag{35}
f(x∗)=x∗TW(35)
- 注:此时的 W 应该对应于后验,即
W
∼
P
(
W
∣
d
a
t
a
)
=
N
(
μ
w
,
Σ
w
)
,
x
∗
对
于
W
来
说
是
常
数
W\sim P(W|data)=N(\mu_w,\Sigma_w),x^*对于W来说是常数
W∼P(W∣data)=N(μw,Σw),x∗对于W来说是常数
x ∗ T W ∼ N ( x ∗ T μ w , x ∗ T Σ w x ∗ ) (36) {x^*}^TW\sim N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*})\tag{36} x∗TW∼N(x∗Tμw,x∗TΣwx∗)(36) - 可得无噪声时公式如下:
P ( f ( x ∗ ) ∣ d a t a , x ∗ ) = N ( x ∗ T μ w , x ∗ T Σ w x ∗ ) (37) P(f(x^*)|data,x^*)=N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*})\tag{37} P(f(x∗)∣data,x∗)=N(x∗Tμw,x∗TΣwx∗)(37)
2.3.2 Prediction 结论
- 预测
y
∗
,
y
∗
=
f
(
x
∗
)
+
ε
y^*,y^*=f(x^*)+\varepsilon
y∗,y∗=f(x∗)+ε
P ( y ∗ ∣ d a t a , x ∗ ) = N ( x ∗ T μ w , x ∗ T Σ w x ∗ + σ 2 ) (38) P(y^*|data,x^*)=N({x^*}^T\mu_w,{x^*}^T\Sigma_w{x^*}+\sigma^2)\tag{38} P(y∗∣data,x∗)=N(x∗Tμw,x∗TΣwx∗+σ2)(38)
3. 综述思路总结
3.1 背景
关于贝叶斯线性回归我们主要了解下其思路,为了方便后续描述,我们定义如下变量:
- 定义数据 Data:
D = { ( x i , x j ) } i = 1 N , 其 中 x i ∈ R p , y i ∈ R (39) D=\{(x_i,x_j)\}_{i=1}^{N},其中 x_i \in\mathbb{R}^p,y_i\in \mathbb{R}\tag{39} D={(xi,xj)}i=1N,其中xi∈Rp,yi∈R(39) - 定义模型Model:
f ( x ) = W T X = X T W (40) f(x)=W^TX=X^TW\tag{40} f(x)=WTX=XTW(40)
y = f ( x ) + ε , ε ∼ ( 0 , σ 2 ) (41) y=f(x)+\varepsilon,\quad \varepsilon\sim(0,\sigma^2)\tag{41} y=f(x)+ε,ε∼(0,σ2)(41) - 贝叶斯方法回归观点:
贝叶斯方法认为参数 W 不是未知的常量,W应该是一个概率分布
3.2 Inference
第一步我们需要做inference 来求解给定数据 data 的关于 W 的分布:
- 后验Posterior;
P
(
W
∣
D
a
t
a
)
=
N
(
μ
w
,
Σ
w
)
P(W|Data) = N(\mu_w,\Sigma_w)
P(W∣Data)=N(μw,Σw)
P ( W ∣ d a t a ) ⏟ G u a s s i a n ∝ l i k e l i h o o d ⏟ G u a s s i a n × p r i o r ⏟ G u a s s i a n (42) \underbrace{P(W|data)}_{Guassian}\propto \underbrace{likelihood}_{Guassian} \times \underbrace{prior}_{Guassian} \tag{42} Guassian P(W∣data)∝Guassian likelihood×Guassian prior(42)
3.3 Prediction
第二步我们需要在给定的
x
∗
x^*
x∗ 的情况下,求解预测
y
∗
y^*
y∗ ?
P
(
y
∗
∣
d
a
t
a
,
x
∗
)
=
∫
w
P
(
y
∗
∣
w
,
d
a
t
a
,
x
∗
)
⋅
P
(
w
∣
d
a
t
a
,
x
∗
)
d
w
(43)
P(y^*|data,x^*)=\int_wP(y^*|w,data,x^*)·P(w|data,x^*)dw\tag{43}
P(y∗∣data,x∗)=∫wP(y∗∣w,data,x∗)⋅P(w∣data,x∗)dw(43)
- 注:因为 w 是从 data 里面学习出来的,所以 w 是可以代表数据的,故可简化得:
P ( y ∗ ∣ w , d a t a , x ∗ ) = P ( y ∗ ∣ w , x ∗ ) (44) P(y^*|w,data,x^*)=P(y^*|w,x^*)\tag{44} P(y∗∣w,data,x∗)=P(y∗∣w,x∗)(44) - 注:新的数据
x
∗
x^*
x∗ 对于 w 来说没有影响,故可简化得:
P ( w ∣ d a t a , x ∗ ) = P ( w ∣ d a t a ) ⏟ p o s t e r i o r (45) P(w|data,x^*)=\underbrace{P(w|data)}_{posterior}\tag{45} P(w∣data,x∗)=posterior P(w∣data)(45)
故综上所述可得:
P ( y ∗ ∣ d a t a , x ∗ ) = ∫ w P ( y ∗ ∣ w , x ∗ ) ⋅ P ( w ∣ d a t a ) d w (46) P(y^*|data,x^*)=\int_wP(y^*|w,x^*)·P(w|data)dw\tag{46} P(y∗∣data,x∗)=∫wP(y∗∣w,x∗)⋅P(w∣data)dw(46)
完 结 撒 花 完结撒花 完结撒花