数据集
D
=
{
(
x
i
,
y
i
)
}
i
=
1
N
,
D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N},
D={(xi,yi)}i=1N, 其中
x
i
∈
R
p
,
y
i
∈
R
x_{i} \in \mathbb{R}^{p}, \quad y_{i} \in \mathbb{R}
xi∈Rp,yi∈R
数据矩阵为:(这样可以保证每一行为一个数据点)
X
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
(
x
11
x
12
…
x
1
p
x
21
x
32
…
x
2
p
⋮
⋮
⋱
⋮
x
N
1
x
N
2
…
x
N
p
)
N
×
P
X=\left(x_{1}, x_{2}, \cdots, x_{N}\right)^{T}=\left(\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right)=\left(\begin{array}{cccc} x_{11} & x_{12} & \dots & x_{1 p} \\ x_{21} & x_{32} & \dots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N 1} & x_{N 2} & \dots & x_{N p} \end{array}\right)_{N \times P}
X=(x1,x2,⋯,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xN1x12x32⋮xN2……⋱…x1px2p⋮xNp⎠⎟⎟⎟⎞N×P
拟合函数我们假设为:
f
(
x
)
=
w
T
x
=
x
T
w
f(x)=w^{T} x=x^{T} w
f(x)=wTx=xTw
预测值
y
=
f
(
x
)
+
ε
,
y=f(x)+\varepsilon,
y=f(x)+ε, 其中
ε
\varepsilon
ε 是一个 Guassian Noise
,
,
, 并且
ε
∼
N
(
0
,
σ
2
)
\varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)
ε∼N(0,σ2)
并且,
x
,
y
,
ε
x, y, \varepsilon
x,y,ε 都是 Random variable。
1 背景
1.1 最小二乘估计(Least Square Estimation)
这实际上就是一个利用数据点的极大似然估计 (MLE),并且有一个默认的隐含条件,也就是噪声
ε
\varepsilon
ε 符合 Gaussian Distribution。我们的目标是通过估计找到
w
,
w,
w, 使得:
w
M
L
E
=
argmax
w
p
(
Data
∣
w
)
w_{M L E}=\operatorname{argmax}_{w} p(\operatorname{Data} | w)
wMLE=argmaxwp(Data∣w)
而如果仅仅只是这样来使用,很容易会出现过拟合的问题。所以,我们引入了 Regularized LSE, 也就是正则化最小二乘法。同时也有一个默认的隐含条件,也是噪声
ε
\varepsilon
ε 符合 Gaussian Distribution。在 Liner Regression 中我们提到了有两种方法来进行思考,也就是 Lasso 和 Ridge Regression。在这里我 们可以使用一个 Bayes 公式,那么:
p
(
w
∣
Data
)
∝
p
(
Data
∣
w
)
p
(
w
)
w
M
A
P
=
argmax
w
p
(
w
∣
Data
)
=
argmax
w
p
(
Data
∣
w
)
p
(
w
)
\begin{array}{c} p(w | \text {Data}) \propto p(\text {Data} | w) p(w) \\ w_{M A P}=\operatorname{argmax}_{w} p(w | \text {Data})=\operatorname{argmax}_{w} p(\text {Data} | w) p(w) \end{array}
p(w∣Data)∝p(Data∣w)p(w)wMAP=argmaxwp(w∣Data)=argmaxwp(Data∣w)p(w)
那么假设
p
(
w
)
p(w)
p(w) 符合一个高斯分布
N
(
μ
0
,
Σ
0
)
\mathcal{N}\left(\mu_{0}, \Sigma_{0}\right)
N(μ0,Σ0) 时, 这时是属于 Ridge; 而如果
p
(
w
)
p(w)
p(w) 符合一个 Laplace 分布,这是就是 Lasso。从概率的角度来思考和统计的角度来思想,我们其实获得的结果是一样的,这 在 Linear Regression 中有证明。但是,我们只证明了 Ridge 的部分。
1.2 贝叶斯估计与频率派估计
其实在第一部分,我们讲的都是点估计,频率派估计的部分。因为在这些思路中,我们把参数 w w w当成a unknown random variable。这实际上就是一个优化问题。而在Beyesian method 中,认为 w w w是一个随机变量,也就是一个分布,那么我们求的 w w w 不再是一个数了,而是一个分布。下面我们将要进行Bayes Linear Regression 的部分。
2 Inference
贝叶斯估计方法 (Bayesian Method),可以分为两个步邪,1.Inference,2.Prediction。Inference 的 关键在于估计 posterior ( w ) (w) (w); 而 Predictipn 的关键在于对于给定的 x ∗ x^{*} x∗ 求出预测值 y ∗ y^{*} y∗
2.1 Bayesian Method 模型建立
首先我们需要对公式使用贝叶斯公式进行分解,便于计算:
p
(
w
∣
D
a
t
a
)
=
p
(
w
∣
X
,
Y
)
=
p
(
w
,
Y
∣
X
)
p
(
Y
∣
X
)
=
p
(
Y
∣
X
,
w
)
p
(
w
)
∫
w
p
(
Y
∣
X
,
w
)
p
(
w
)
d
w
p(w | D a t a)=p(w | X, Y)=\frac{p(w, Y | X)}{p(Y | X)}=\frac{p(Y | X, w) p(w)}{\int_{w} p(Y | X, w) p(w) d w}
p(w∣Data)=p(w∣X,Y)=p(Y∣X)p(w,Y∣X)=∫wp(Y∣X,w)p(w)dwp(Y∣X,w)p(w)
其中
p
(
Y
∣
X
,
w
)
p(Y | X, w)
p(Y∣X,w) 是似然函数 (likelihood function)
,
p
(
w
)
, p(w)
,p(w) 是一个先验函数 (prior function)。实际 这里省略了一个过程,
p
(
w
,
Y
∣
X
)
=
p
(
Y
∣
X
,
w
)
p
(
w
∣
X
)
p(w, Y | X)=p(Y | X, w) p(w | X)
p(w,Y∣X)=p(Y∣X,w)p(w∣X) 。但是很显然,
p
(
w
∣
X
)
p(w | X)
p(w∣X) 中
X
X
X 与
w
w
w 之间并没有 直接的联系。所以
p
(
w
∣
X
)
=
p
(
w
)
p(w | X)=p(w)
p(w∣X)=p(w) 似然函数的求解过程为:
p
(
Y
∣
X
,
w
)
=
∏
i
=
1
N
p
(
y
i
∣
x
i
,
w
)
p(Y | X, w)=\prod_{i=1}^{N} p\left(y_{i} | x_{i}, w\right)
p(Y∣X,w)=i=1∏Np(yi∣xi,w)
又因为
y
=
w
T
x
+
ε
,
y=w^{T} x+\varepsilon,
y=wTx+ε, 并且
ε
∼
N
(
0
,
σ
2
)
。
\varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right) 。
ε∼N(0,σ2)。 所以
p
(
y
i
∣
x
i
,
w
)
=
N
(
w
T
x
i
,
σ
2
)
p\left(y_{i} | x_{i}, w\right)=\mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right)
p(yi∣xi,w)=N(wTxi,σ2)
所以,
p
(
Y
∣
X
,
w
)
=
∏
i
=
1
N
p
(
y
i
∣
x
i
,
w
)
=
∏
i
=
1
N
N
(
w
T
x
i
,
σ
2
)
p(Y | X, w)=\prod_{i=1}^{N} p\left(y_{i} | x_{i}, w\right)=\prod_{i=1}^{N} \mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right)
p(Y∣X,w)=i=1∏Np(yi∣xi,w)=i=1∏NN(wTxi,σ2)
而下一步,我们
w
w
w的先验,为方便起见,假设
p
(
w
)
=
N
(
0
,
Σ
p
)
p(w)=\mathcal{N}\left(0, \Sigma_{p}\right)
p(w)=N(0,Σp) 。又因为
p
(
Y
∣
X
)
p(Y | X)
p(Y∣X) 与参数
w
w
w 无关,所以这是一个定值。所以,我们可以将公式改写为:
p
(
w
∣
X
,
Y
)
∝
p
(
Y
∣
w
,
X
)
p
(
w
)
p(w | X, Y) \propto p(Y | w, X) p(w)
p(w∣X,Y)∝p(Y∣w,X)p(w)
在这里我们将使用到一个共轭的技巧,因为 likelihood function 和 prior function 都是 Gaussian Distribution,所有 posterior 也一定是 Gaussian Distribution。所以,我们可以将公式改写为:
p
(
w
∣
Data
)
∼
N
(
μ
w
,
Σ
w
)
∝
∏
i
=
1
N
N
(
w
T
x
i
,
σ
2
)
N
(
0
,
Σ
p
)
p(w | \text {Data}) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto \prod_{i=1}^{N} \mathcal{N}\left(w^{T} x_{i}, \sigma^{2}\right) \mathcal{N}\left(0, \Sigma_{p}\right)
p(w∣Data)∼N(μw,Σw)∝i=1∏NN(wTxi,σ2)N(0,Σp)
我们的目的就是求解
μ
w
=
?
,
Σ
w
=
?
\mu_{w}=?, \Sigma_{w}=?
μw=?,Σw=?
对于 likelihood function 的化简如下所示:
p
(
Y
∣
X
,
w
)
=
∏
i
=
1
N
1
(
2
π
)
1
2
σ
exp
{
−
1
2
σ
2
(
y
i
−
w
T
x
i
)
2
}
=
1
(
2
π
)
N
2
σ
N
exp
{
−
1
2
σ
2
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
}
\begin{aligned} p(Y | X, w) &=\prod_{i=1}^{N} \frac{1}{(2 \pi)^{\frac{1}{2}} \sigma} \exp \left\{-\frac{1}{2 \sigma^{2}}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \\ &=\frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \end{aligned}
p(Y∣X,w)=i=1∏N(2π)21σ1exp{−2σ21(yi−wTxi)2}=(2π)2NσN1exp{−2σ21i=1∑N(yi−wTxi)2}
2.2 模型的求解
对于likelihood function 的化简如下所示:
p
(
Y
∣
X
,
w
)
=
∏
i
=
1
N
1
(
2
π
)
1
2
σ
exp
{
−
1
2
σ
2
(
y
i
−
w
T
x
i
)
2
}
=
1
(
2
π
)
N
2
σ
N
exp
{
−
1
2
σ
2
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
}
\begin{aligned} p(Y | X, w) &=\prod_{i=1}^{N} \frac{1}{(2 \pi)^{\frac{1}{2}} \sigma} \exp \left\{-\frac{1}{2 \sigma^{2}}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \\ &=\frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}\right\} \end{aligned}
p(Y∣X,w)=i=1∏N(2π)21σ1exp{−2σ21(yi−wTxi)2}=(2π)2NσN1exp{−2σ21i=1∑N(yi−wTxi)2}
下一步,我们希望将
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
\sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}
∑i=1N(yi−wTxi)2 改写成矩阵相乘的形式
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
=
[
y
1
−
w
T
x
1
y
2
−
w
T
x
2
⋯
y
i
−
w
T
x
i
]
[
y
1
−
w
T
x
1
y
2
−
w
T
x
2
⋮
y
i
−
w
T
x
i
]
=
(
Y
T
−
W
T
X
T
)
(
Y
T
−
W
T
X
T
)
T
=
(
Y
T
−
W
T
X
T
)
(
Y
−
X
W
)
\begin{aligned} \sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2} &=\left[\begin{array}{llll} y_{1}-w^{T} x_{1} & y_{2}-w^{T} x_{2} & \cdots & y_{i}-w^{T} x_{i} \end{array}\right]\left[\begin{array}{c} y_{1}-w^{T} x_{1} \\ y_{2}-w^{T} x_{2} \\ \vdots \\ y_{i}-w^{T} x_{i} \end{array}\right] \\ &=\left(Y^{T}-W^{T} X^{T}\right)\left(Y^{T}-W^{T} X^{T}\right)^{T} \\ &=\left(Y^{T}-W^{T} X^{T}\right)(Y-X W) \end{aligned}
i=1∑N(yi−wTxi)2=[y1−wTx1y2−wTx2⋯yi−wTxi]⎣⎢⎢⎢⎡y1−wTx1y2−wTx2⋮yi−wTxi⎦⎥⎥⎥⎤=(YT−WTXT)(YT−WTXT)T=(YT−WTXT)(Y−XW)所以,
p
(
Y
∣
X
,
w
)
=
1
(
2
π
)
N
2
σ
N
exp
{
−
1
2
σ
2
∑
i
=
1
N
(
Y
T
−
W
T
X
T
)
(
Y
−
X
W
)
}
=
1
(
2
π
)
N
2
σ
N
exp
{
−
1
2
∑
i
=
1
N
(
Y
T
−
W
T
X
T
)
σ
−
2
I
(
Y
−
X
W
)
}
p
(
Y
∣
X
,
w
)
∼
N
(
W
X
,
σ
−
2
I
)
\begin{aligned} p(Y | X, w)=& \frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N}\left(Y^{T}-W^{T} X^{T}\right)(Y-X W)\right\} \\ =& \frac{1}{(2 \pi)^{\frac{N}{2}} \sigma^{N}} \exp \left\{-\frac{1}{2} \sum_{i=1}^{N}\left(Y^{T}-W^{T} X^{T}\right) \sigma^{-2} I(Y-X W)\right\} \\ & p(Y | X, w) \sim \mathcal{N}\left(W X, \sigma^{-2} I\right) \end{aligned}
p(Y∣X,w)==(2π)2NσN1exp{−2σ21i=1∑N(YT−WTXT)(Y−XW)}(2π)2NσN1exp{−21i=1∑N(YT−WTXT)σ−2I(Y−XW)}p(Y∣X,w)∼N(WX,σ−2I)
那么,将化简后的结果带入有:
p
(
w
∣
D
ata
)
∼
N
(
μ
w
,
Σ
w
)
∝
N
(
W
X
,
σ
2
I
)
N
(
0
,
Σ
p
)
p(w | D \text { ata }) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto \mathcal{N}\left(W X, \sigma^{2} I\right) \mathcal{N}\left(0, \Sigma_{p}\right)
p(w∣D ata )∼N(μw,Σw)∝N(WX,σ2I)N(0,Σp)
N
(
W
X
,
σ
2
I
)
N
(
0
,
Σ
p
)
∝
exp
{
−
1
2
(
Y
−
W
X
)
T
σ
−
2
I
(
Y
−
W
X
)
−
1
2
w
T
Σ
p
−
1
w
}
=
exp
{
−
1
2
σ
2
(
Y
T
Y
−
2
Y
T
X
W
+
W
T
X
T
X
W
)
−
1
2
W
T
Σ
p
−
1
W
}
\begin{aligned} \mathcal{N}\left(W X, \sigma^{2} I\right) \mathcal{N}\left(0, \Sigma_{p}\right) & \propto \exp \left\{-\frac{1}{2}(Y-W X)^{T} \sigma^{-2} I(Y-W X)-\frac{1}{2} w^{T} \Sigma_{p}^{-1} w\right\} \\ &=\exp \left\{-\frac{1}{2 \sigma^{2}}\left(Y^{T} Y-2 Y^{T} X W+W^{T} X^{T} X W\right)-\frac{1}{2} W^{T} \Sigma_{p}^{-1} W\right\} \end{aligned}
N(WX,σ2I)N(0,Σp)∝exp{−21(Y−WX)Tσ−2I(Y−WX)−21wTΣp−1w}=exp{−2σ21(YTY−2YTXW+WTXTXW)−21WTΣp−1W}
那么这个公式长得怎么的难如我们怎么确定我们想要的
μ
w
,
Σ
w
\mu_{w}, \Sigma_{w }
μw,Σw。 由于知道 posterior 必然是一个 高斯分布,那么我们采用待定系数法来类比确定参数的值即可。对于一个分布
p
(
x
)
∼
N
(
μ
,
Σ
)
,
p(x) \sim \mathcal{N}(\mu, \Sigma),
p(x)∼N(μ,Σ), 他的 指数部分为:
exp
{
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
}
=
exp
{
−
1
2
(
x
T
Σ
−
1
x
−
2
μ
T
Σ
−
1
x
+
Δ
)
}
\exp \left\{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right\}=\exp \left\{-\frac{1}{2}\left(x^{T} \Sigma^{-1} x-2 \mu^{T} \Sigma^{-1} x+\Delta\right)\right\}
exp{−21(x−μ)TΣ−1(x−μ)}=exp{−21(xTΣ−1x−2μTΣ−1x+Δ)}
常数部分已经不重要了,对于我们的求解来说没有任何的用处,所以,我们直接令它为
Δ
\Delta
Δ。那么, 我们类比一下就可以得到,
x
T
Σ
−
1
x
=
W
T
σ
−
2
X
T
X
W
+
W
T
Σ
p
−
1
W
x^{T} \Sigma^{-1} x=W^{T} \sigma^{-2} X^{T} X W+W^{T} \Sigma_{p}^{-1} W
xTΣ−1x=WTσ−2XTXW+WTΣp−1W
所以,我们可以得到
Σ
w
−
1
=
σ
−
2
X
T
X
+
Σ
p
−
1
\Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1}
Σw−1=σ−2XTX+Σp−1 。并且, 我们令
Σ
w
−
1
=
A
\Sigma_{w}^{-1}=A
Σw−1=A
从二次项中我们得到了
Σ
w
−
1
\Sigma_{w}^{-1}
Σw−1 那么,下一步,我们期望可以从一次项中得到
μ
A
\mu_{A}
μA 的偵。我们将 次项提取出来进行观察,可以得到。
μ
T
A
=
σ
−
2
Y
T
X
(
μ
T
A
)
T
=
(
σ
−
2
Y
T
X
)
T
A
T
μ
=
σ
−
2
X
T
Y
μ
=
σ
−
2
(
A
T
)
−
1
X
T
Y
\begin{aligned} \mu^{T} A &=\sigma^{-2} Y^{T} X \\ \left(\mu^{T} A\right)^{T} &=\left(\sigma^{-2} Y^{T} X\right)^{T} \\ A^{T} \mu &=\sigma^{-2} X^{T} Y \\ \mu &=\sigma^{-2}\left(A^{T}\right)^{-1} X^{T} Y \end{aligned}
μTA(μTA)TATμμ=σ−2YTX=(σ−2YTX)T=σ−2XTY=σ−2(AT)−1XTY又因为,
Σ
w
\Sigma_w
Σw 是一个方差矩阵,那么他一定是对称的,所以
A
T
=
A
∙
A^{T}=A_{\bullet}
AT=A∙ 于是
μ
m
=
σ
−
2
A
−
1
X
T
Y
\mu_{m}=\sigma^{-2} A^{-1} X^{T} Y
μm=σ−2A−1XTY
2.3小结
我们利用贝叶斯推断的方法来确定参数之间的分布,也就是确定
p
(
W
∣
X
,
Y
)
p(W | X, Y)
p(W∣X,Y) 。我们使用 Bayes 的 方法,确定为
p
(
W
∣
X
,
Y
)
∝
p
(
Y
∣
W
,
X
)
p
(
W
)
p(W | X, Y) \propto p(Y | W, X) p(W)
p(W∣X,Y)∝p(Y∣W,X)p(W) 。并且确定一个噪声分布
ε
∼
N
(
0
,
σ
2
)
\varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)
ε∼N(0,σ2) 。那么,
p
(
Y
∣
W
,
X
)
∼
N
(
W
T
X
,
σ
2
)
P
(
W
)
∼
N
(
0
,
Σ
p
)
\begin{aligned} p(Y | W, X) & \sim \mathcal{N}\left(W^{T} X, \sigma^{2}\right) \\ P(W) & \sim \mathcal{N}\left(0, \Sigma_{p}\right) \end{aligned}
p(Y∣W,X)P(W)∼N(WTX,σ2)∼N(0,Σp)
通过推导,我们可以得出,
p
(
W
∣
X
,
Y
)
∼
N
(
μ
w
,
Σ
w
)
p(W | X, Y) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right)
p(W∣X,Y)∼N(μw,Σw)
其中,
Σ
w
−
1
=
σ
−
2
X
T
X
+
Σ
p
−
1
μ
m
=
σ
−
2
A
−
1
X
T
Y
Σ
w
−
1
=
A
\Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1} \quad \mu_{m}=\sigma^{-2} A^{-1} X^{T} Y \quad \Sigma_{w}^{-1}=A
Σw−1=σ−2XTX+Σp−1μm=σ−2A−1XTYΣw−1=A
3 Prediction & Conclusion
根据上一节中提到的 Inference,我们已经成功的推断出了
p
(
w
∣
D
a
t
a
)
p(w | D a t a)
p(w∣Data) 的分布。表述如下所示:
p
(
W
∣
X
,
Y
)
∼
N
(
μ
w
,
Σ
w
)
p(W | X, Y) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right)
p(W∣X,Y)∼N(μw,Σw)
其中,
Σ
w
−
1
=
σ
−
2
X
T
X
+
Σ
p
−
1
μ
m
=
σ
−
2
A
−
1
X
T
Y
Σ
w
−
1
=
A
\Sigma_{w}^{-1}=\sigma^{-2} X^{T} X+\Sigma_{p}^{-1} \quad \mu_{m}=\sigma^{-2} A^{-1} X^{T} Y \quad \Sigma_{w}^{-1}=A
Σw−1=σ−2XTX+Σp−1μm=σ−2A−1XTYΣw−1=A
而我们的 Prediction 过程,可以被描述为,给定一个
x
∗
x^{*}
x∗ 如果计算得到
y
∗
y^{*}
y∗ 。而我们的模型建立如
下所示:
{
f
(
x
)
=
w
T
X
=
x
T
w
y
=
f
(
x
)
+
ε
ε
∼
N
(
0
,
σ
2
)
\left\{\begin{array}{l} f(x)=w^{T} X=x^{T} w \\ y=f(x)+\varepsilon \end{array} \quad \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)\right.
{f(x)=wTX=xTwy=f(x)+εε∼N(0,σ2)
3.1 Prediction
模型预测的第一步为,
f
(
x
∗
)
=
x
∗
T
w
f\left(x^{*}\right)=x^{* T} w
f(x∗)=x∗Tw
而在 Inference 部分,我们得到了
p
(
w
∣
D
ata
)
∼
N
(
μ
w
,
Σ
w
)
p(w | D \text {ata}) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right)
p(w∣Data)∼N(μw,Σw) 。所以,我们可以推断出,
f
(
x
∗
)
=
x
∗
T
w
∼
N
(
x
∗
T
μ
w
,
x
∗
T
Σ
w
x
∗
)
(
5
)
f\left(x^{*}\right)=x^{* T} w \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}\right) \ \ \ \ (5)
f(x∗)=x∗Tw∼N(x∗Tμw,x∗TΣwx∗) (5)
那么公式 (5) 我们可以写作:
p
(
f
(
x
∗
)
∣
Data
,
x
∗
)
∼
N
(
x
∗
T
μ
w
,
x
∗
T
Σ
w
x
∗
)
p\left(f\left(x^{*}\right) | \text {Data}, x^{*}\right) \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}\right)
p(f(x∗)∣Data,x∗)∼N(x∗Tμw,x∗TΣwx∗)
又因为
y
=
f
(
x
)
+
ε
,
y=f(x)+\varepsilon,
y=f(x)+ε, 所以
p
(
y
∗
∣
Data
,
x
∗
)
∼
N
(
x
∗
T
μ
w
,
x
∗
T
Σ
w
x
∗
+
σ
2
)
p\left(y^{*} | \text {Data}, x^{*}\right) \sim \mathcal{N}\left(x^{* T} \mu_{w}, x^{* T} \Sigma_{w} x^{*}+\sigma^{2}\right)
p(y∗∣Data,x∗)∼N(x∗Tμw,x∗TΣwx∗+σ2)
那么计算到这里,我们的模型预测也算是完成了。
3.2 Conclusion
Data:
D
=
{
(
x
i
,
y
i
)
}
i
=
1
N
,
D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{N},
D={(xi,yi)}i=1N, 其中
x
i
∈
R
p
,
y
i
∈
R
0
x_{i} \in \mathbb{R}^{p}, y_{i} \in \mathbb{R}_{0}
xi∈Rp,yi∈R0
Model:
{
f
(
x
)
=
w
T
X
=
x
T
w
y
=
f
(
x
)
+
ε
ε
∼
N
(
0
,
σ
2
)
\left\{\begin{array}{l} f(x)=w^{T} X=x^{T} w \\ y=f(x)+\varepsilon \end{array} \quad \varepsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)\right.
{f(x)=wTX=xTwy=f(x)+εε∼N(0,σ2)
Bayesian Method: w 不在是一个末知的常数,w 而是一个概率分布。贝叶斯线性分类可以被分成 两个部分,Inference 和 Prediction。
- Inference: p ( w ∣ Data ) p(w | \text { Data }) p(w∣ Data ) 是一个 posterior 分布,假定 p ( w ∣ D ata ) ∼ N ( μ w , Σ w ) ∝ p(w | D \text { ata }) \sim \mathcal{N}\left(\mu_{w}, \Sigma_{w}\right) \propto p(w∣D ata )∼N(μw,Σw)∝ likelihood x x x prior 。这里使用了共轭的小技巧,得到 posterior 一定是一个 Gaussian Distribution。在这一步中,我 们的关键是求出 μ w = ? , Σ w = ? \mu_{w}=?, \Sigma_{w}=? μw=?,Σw=?
- Prediction:这个问题实际上也就是,给定一个
x
∗
x^{*}
x∗ 如果计算得到
y
∗
y^{*}
y∗ 。我们可以描述为:
p ( y ∗ ∣ Data , x ∗ ) = ∫ w p ( y ∗ ∣ w , Data, x ∗ ) p ( w ∣ Data , x ∗ ) d w p\left(y^{*} | \text {Data}, x^{*}\right)=\int_{w} p\left(y^{*} | w, \text { Data, } x^{*}\right) p\left(w | \text {Data}, x^{*}\right) d w p(y∗∣Data,x∗)=∫wp(y∗∣w, Data, x∗)p(w∣Data,x∗)dw
又因为,w 就是从 Data 中引出的,所以 p ( y ∗ ∣ w , D a t a , x ∗ ) = p ( y ∗ ∣ w , x ∗ ) p\left(y^{*} | w, D a t a, x^{*}\right)=p\left(y^{*} | w, x^{*}\right) p(y∗∣w,Data,x∗)=p(y∗∣w,x∗), 并且, w w w 的获得与 x ∗ x^{*} x∗ 没有关系,所以 p ( w ∣ D a t a ) 。 p(w | D a t a) 。 p(w∣Data)。 所以,
p ( y ∗ ∣ Data , x ∗ ) = ∫ w p ( y ∗ ∣ w , x ∗ ) p ( w ∣ D a t a ) d w = E w ∼ p ( w ∣ D a t a ) [ p ( y ∗ ∣ w , x ∗ ) ] p\left(y^{*} | \text {Data}, x^{*}\right)=\int_{w} p\left(y^{*} | w, x^{*}\right) p(w | D a t a) d w=\mathbb{E}_{w \sim p(w | D a t a)}\left[p\left(y^{*} | w, x^{*}\right)\right] p(y∗∣Data,x∗)=∫wp(y∗∣w,x∗)p(w∣Data)dw=Ew∼p(w∣Data)[p(y∗∣w,x∗)]