PRML学习总结(3)——Linear Models for Regression
3.1 Linear Basis Function Models
最简单的线性回归模型为
y
(
x
,
w
)
=
w
0
+
w
1
x
1
+
…
+
w
D
x
D
y ( \mathbf { x } , \mathbf { w } ) = w _ { 0 } + w _ { 1 } x _ { 1 } + \ldots + w _ { D } x _ { D }
y(x,w)=w0+w1x1+…+wDxD我们可以稍微把模型复杂度提升些,利用基函数
ϕ
j
(
x
)
\phi _ { j } ( \mathrm { x } )
ϕj(x)
y
(
x
,
w
)
=
w
0
+
∑
j
=
1
M
−
1
w
j
ϕ
j
(
x
)
y ( \mathbf { x } , \mathbf { w } ) = w _ { 0 } + \sum _ { j = 1 } ^ { M - 1 } w _ { j } \phi _ { j } ( \mathbf { x } )
y(x,w)=w0+j=1∑M−1wjϕj(x)令
ϕ
0
(
x
)
=
1
\phi _ { 0 } ( \mathbf { x } ) = 1
ϕ0(x)=1,则
y
(
x
,
w
)
=
∑
j
=
0
M
−
1
w
j
ϕ
j
(
x
)
=
w
T
ϕ
(
x
)
y ( \mathbf { x } , \mathbf { w } ) = \sum _ { j = 0 } ^ { M - 1 } w _ { j } \phi _ { j } ( \mathbf { x } ) = \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { x } )
y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)其中
w
=
(
w
0
,
…
,
w
M
−
1
)
T
\mathbf { w } = \left( w _ { 0 } , \ldots , w _ { M - 1 } \right) ^ { \mathrm { T } }
w=(w0,…,wM−1)T,
ϕ
=
(
ϕ
0
,
…
,
ϕ
M
−
1
)
T
\mathbf{\phi} = \left( \phi _ { 0 } , \ldots , \phi _ { M - 1 } \right) ^ { \mathrm { T } }
ϕ=(ϕ0,…,ϕM−1)T。在许多模式识别的实际应⽤中,我们会对原始的数据变量进⾏某种固定形式的预处理或者特征抽取。利用非线性的
ϕ
(
x
)
\phi ( \mathbf { x } )
ϕ(x)可以让模型具有非线性,但这样的模型还是称为线性回归模型,因为对于需要优化的参数仍然是线性的。在第一章中采用的是多项式拟合,即
ϕ
j
(
x
)
=
x
j
\phi _ { j } ( x ) = x ^ { j }
ϕj(x)=xj。
高斯基函数:
ϕ
j
(
x
)
=
exp
{
−
(
x
−
μ
j
)
2
2
s
2
}
\phi _ { j } ( x ) = \exp \left\{ - \frac { \left( x - \mu _ { j } \right) ^ { 2 } } { 2 s ^ { 2 } } \right\}
ϕj(x)=exp{−2s2(x−μj)2}其中,
μ
j
\mu _ { j }
μj控制基函数在输入空间中的位置,参数
s
s
s控制基函数的空间大小。
sigmoid基函数:
ϕ
j
(
x
)
=
σ
(
x
−
μ
j
s
)
\phi _ { j } ( x ) = \sigma \left( \frac { x - \mu _ { j } } { s } \right)
ϕj(x)=σ(sx−μj)其中
σ
(
a
)
=
1
1
+
exp
(
−
a
)
\sigma ( a ) = \frac { 1 } { 1 + \exp ( - a ) }
σ(a)=1+exp(−a)1。会存在很多不同的基函数,包括利用傅里叶级数,这些都不是研究的重点。
3.1.1 Maximum likelihood and least squares
之前建模为
t
=
y
(
x
,
w
)
+
ϵ
t = y ( \mathbf { x } , \mathbf { w } ) + \epsilon
t=y(x,w)+ϵ其中
ϵ
\epsilon
ϵ代表0均值精度为
β
\beta
β的高斯分布,则
p
(
t
∣
x
,
w
,
β
)
=
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
p ( t | \mathbf { x } , \mathbf { w } , \beta ) = \mathcal { N } \left( t | y ( \mathbf { x } , \mathbf { w } ) , \beta ^ { - 1 } \right)
p(t∣x,w,β)=N(t∣y(x,w),β−1)回忆⼀下,如果我们假设⼀个平⽅损失函数,那么对于
x
\mathbf{x}
x的⼀个新值,最优的预测由⽬标变量的条件均值给出。
E
[
t
∣
x
]
=
∫
t
p
(
t
∣
x
)
d
t
=
y
(
x
,
w
)
\mathbb { E } [ t | \mathbf { x } ] = \int t p ( t | \mathbf { x } ) \mathrm { d } t = y ( \mathbf { x } , \mathbf { w } )
E[t∣x]=∫tp(t∣x)dt=y(x,w)
现在考虑一个数据集
X
=
{
x
1
,
…
,
x
N
}
\mathbf { X } = \left\{ \mathbf { x } _ { 1 } , \dots , \mathbf { x } _ { N } \right\}
X={x1,…,xN}以及其目标值为
t
1
,
…
,
t
N
t _ { 1 } , \ldots , t _ { N }
t1,…,tN,则
p
(
t
∣
X
,
w
,
β
)
=
∏
n
=
1
N
N
(
t
n
∣
w
T
ϕ
(
x
n
)
,
β
−
1
)
p ( \mathbf { t } | \mathbf { X } , \mathbf { w } , \beta ) = \prod _ { n = 1 } ^ { N } \mathcal { N } \left( t _ { n } | \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) , \beta ^ { - 1 } \right)
p(t∣X,w,β)=n=1∏NN(tn∣wTϕ(xn),β−1)求其最大似然估计
w
M
L
=
(
Φ
T
Φ
)
−
1
Φ
T
t
\mathbf { w } _ { \mathrm { ML } } = \left( \boldsymbol { \Phi } ^ { \mathrm { T } } \boldsymbol { \Phi } \right) ^ { - 1 } \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { t }
wML=(ΦTΦ)−1ΦTt其中
Φ
=
(
ϕ
0
(
x
1
)
ϕ
1
(
x
1
)
⋯
ϕ
M
−
1
(
x
1
)
ϕ
0
(
x
2
)
ϕ
1
(
x
2
)
⋯
ϕ
M
−
1
(
x
2
)
⋮
⋮
⋱
⋮
ϕ
0
(
x
N
)
ϕ
1
(
x
N
)
⋯
ϕ
M
−
1
(
x
N
)
)
\Phi = \left( \begin{array} { c c c c } { \phi _ { 0 } \left( \mathbf { x } _ { 1 } \right) } & { \phi _ { 1 } \left( \mathbf { x } _ { 1 } \right) } & { \cdots } & { \phi _ { M - 1 } \left( \mathbf { x } _ { 1 } \right) } \\ { \phi _ { 0 } \left( \mathbf { x } _ { 2 } \right) } & { \phi _ { 1 } \left( \mathbf { x } _ { 2 } \right) } & { \cdots } & { \phi _ { M - 1 } \left( \mathbf { x } _ { 2 } \right) } \\ { \vdots } & { \vdots } & { \ddots } & { \vdots } \\ { \phi _ { 0 } \left( \mathbf { x } _ { N } \right) } & { \phi _ { 1 } \left( \mathbf { x } _ { N } \right) } & { \cdots } & { \phi _ { M - 1 } \left( \mathbf { x } _ { N } \right) } \end{array} \right)
Φ=⎝⎜⎜⎜⎛ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)⎠⎟⎟⎟⎞
下面我们可以更加深刻地认识偏置参数
w
0
w _ { 0 }
w0,显式地写出该参数
E
D
(
w
)
=
1
2
∑
n
=
1
N
{
t
n
−
w
0
−
∑
j
=
1
M
−
1
w
j
ϕ
j
(
x
n
)
}
2
E _ { D } ( \boldsymbol { w } ) = \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - w _ { 0 } - \sum _ { j = 1 } ^ { M - 1 } w _ { j } \phi _ { j } \left( \boldsymbol { x } _ { n } \right) \right\} ^ { 2 }
ED(w)=21n=1∑N{tn−w0−j=1∑M−1wjϕj(xn)}2得
w
0
=
t
‾
−
∑
j
=
1
M
−
1
w
j
ϕ
‾
j
w _ { 0 } = \overline { t } - \sum _ { j = 1 } ^ { M - 1 } w _ { j } \overline { \phi } _ { j }
w0=t−j=1∑M−1wjϕj其中
t
‾
=
1
N
∑
n
=
1
N
t
n
,
ϕ
}
=
1
N
∑
n
=
1
N
ϕ
j
(
x
n
)
\overline { t } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } t _ { n } , \quad \phi \} = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \phi _ { j } \left( \boldsymbol { x } _ { n } \right)
t=N1n=1∑Ntn,ϕ}=N1n=1∑Nϕj(xn)说明偏置
w
0
w_0
w0补偿了⽬标值的平均值(在训练集上的)与基函数的值的平均值的加权求和之间的差。
同样可以对
β
\beta
β进行最大似然估计
1
β
M
L
=
1
N
∑
n
=
1
N
{
t
n
−
w
M
L
T
ϕ
(
x
n
)
}
2
\frac { 1 } { \beta _ { M L } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \boldsymbol { w } _ { M L } ^ { T } \boldsymbol { \phi } \left( \boldsymbol { x } _ { n } \right) \right\} ^ { 2 }
βML1=N1n=1∑N{tn−wMLTϕ(xn)}2因此我们看到噪声精度的倒数由⽬标值在回归函数周围的残留⽅差(residual variance)给出。
3.1.2 Geometry of least squares
3.1.3 Sequential learning
最⼤似然解(3.15)的求解过程涉及到⼀次处理整个数据集。这种批处理技术对于⼤规模数据集来说计算量相当⼤。正如我们在第1章讨论的那样,如果数据集充分⼤,那么使⽤顺序算法(也被称为在线算法)可能更有价值。顺序算法中,每次只考虑⼀个数据点,模型的参数在每观测到⼀个数据点之后进⾏更新。顺序学习也适⽤于实时的应⽤。在实时应⽤中,数据观测以⼀个连续的流的⽅式持续到达,我们必须在观测到所有数据之前就做出预测。 w ( τ + 1 ) = w ( τ ) − η ∇ E n \mathbf { w } ^ { ( \tau + 1 ) } = \mathbf { w } ^ { ( \tau ) } - \eta \nabla E _ { n } w(τ+1)=w(τ)−η∇En具体地,对于平方误差函数 w ( τ + 1 ) = w ( τ ) + η ( t n − w ( τ ) T ϕ n ) ϕ n \mathbf { w } ^ { ( \tau + 1 ) } = \mathbf { w } ^ { ( \tau ) } + \eta \left( t _ { n } - \mathbf { w } ^ { ( \tau ) \mathrm { T } } \boldsymbol { \phi } _ { n } \right) \boldsymbol { \phi } _ { n } w(τ+1)=w(τ)+η(tn−w(τ)Tϕn)ϕn这个称为LMS算法!
3.1.4 Regularized least squares
E
D
(
w
)
+
λ
E
W
(
w
)
E _ { D } ( \mathbf { w } ) + \lambda E _ { W } ( \mathbf { w } )
ED(w)+λEW(w)引入正则可以很好地控制过拟合!
E
W
(
w
)
=
1
2
w
T
w
E _ { W } ( \mathbf { w } ) = \frac { 1 } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w }
EW(w)=21wTw
E
D
(
w
)
=
1
2
∑
n
=
1
N
{
t
n
−
w
T
ϕ
(
x
n
)
}
2
E_D ( \mathbf { w } ) = \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 }
ED(w)=21n=1∑N{tn−wTϕ(xn)}2采用以上形式的损失函数,可得
w
=
(
λ
I
+
Φ
T
Φ
)
−
1
Φ
T
t
\mathbf { w } = \left( \lambda \mathbf { I } + \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \right) ^ { - 1 } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { t }
w=(λI+ΦTΦ)−1ΦTt更一般的正则如下
1
2
∑
n
=
1
N
{
t
n
−
w
T
ϕ
(
x
n
)
}
2
+
λ
2
∑
j
=
1
M
∣
w
j
∣
q
\frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 } + \frac { \lambda } { 2 } \sum _ { j = 1 } ^ { M } \left| w _ { j } \right| ^ { q }
21n=1∑N{tn−wTϕ(xn)}2+2λj=1∑M∣wj∣q
3.1.5 Multiple outputs
之前讨论的都是一维输出的回归模型,当存在
K
K
K个维度的输出时,可以对输出的每个维度单独考虑为一个回归模型,引入不同的基函数。但是常见的是用同一个基函数来建模。
y
(
x
,
w
)
=
W
T
ϕ
(
x
)
\boldsymbol { y } ( \boldsymbol { x } , \boldsymbol { w } ) = \boldsymbol { W } ^ { T } \boldsymbol { \phi } ( \boldsymbol { x } )
y(x,w)=WTϕ(x)其中
y
\mathbf y
y是一个
K
K
K维的列向量,
W
\mathbf W
W为
M
×
K
M\times K
M×K的参数矩阵
p
(
t
∣
x
,
W
,
β
)
=
N
(
t
∣
W
T
ϕ
(
x
)
,
∣
β
−
1
I
)
p ( \boldsymbol { t } | \boldsymbol { x } , \boldsymbol { W } , \beta ) = \mathcal { N } \left( \boldsymbol { t } \left| \boldsymbol { W } ^ { T } \boldsymbol { \phi } ( \boldsymbol { x } ) , \right| \beta ^ { - 1 } \boldsymbol { I } \right)
p(t∣x,W,β)=N(t∣∣∣WTϕ(x),∣∣∣β−1I)最后可得最大似然估计
W
M
L
=
(
Φ
T
Φ
)
−
1
Φ
T
T
\boldsymbol { W } _ { M L } = \left( \boldsymbol { \Phi } ^ { T } \mathbf { \Phi } \right) ^ { - 1 } \mathbf { \Phi } ^ { T } \boldsymbol { T }
WML=(ΦTΦ)−1ΦTT其中,
T
\mathbf T
T为
N
×
K
N\times K
N×K的观测矩阵,有
t
1
,
…
,
t
N
\mathbf t _ { 1 } , \ldots , \mathbf t _ { N }
t1,…,tN组成。
当考虑任意的噪声协方差矩阵,任意也会得到相同的结果,因为
W
W
W仅仅与均值部分相关,与协方差矩阵无关!所以也可以划分为
K
K
K个独立的回归问题!
3.2 The Bias-Variance Decomposition
⽬前为⽌,我们对于回归的线性模型的讨论中,我们假定了基函数的形式和数量都是固定的。正如我们在第1章中看到的那样,如果使⽤有限规模的数据集来训练复杂的模型,那么使⽤最⼤似然⽅法,或者等价地,使⽤最⼩平⽅⽅法,会导致严重的过拟合问题。然⽽,通过限制基函数的数量来避免过拟合问题有⼀个负作⽤,即限制了模型描述数据中有趣且重要的规律的灵活性。虽然引⼊正则化项可以控制具有多个参数的模型的过拟合问题,但是这就产⽣了⼀个问题:如何确定正则化系数
λ
\lambda
λ的合适的值。同时关于权值
w
w
w和正则化系数
λ
\lambda
λ来最⼩化正则化的误差函数显然不是⼀个正确的⽅法,因为这样做会使得
λ
=
0
\lambda = 0
λ=0,从⽽产⽣⾮正则化的解。
正如我们在之前的章节中看到的那样,过拟合现象确实是最⼤似然⽅法的⼀个不好的性质。但是当我们在使⽤贝叶斯⽅法对参数进⾏求和或者积分时,过拟合现象不会出现。本章中,我们会稍微深⼊地从贝叶斯观点讨论模型的复杂度。但是,在进⾏这样的讨论之前,从频率学家的观点考虑⼀下模型的复杂度问题是很有指导意义的。这种频率学家的观点被称为偏置-⽅差折中(bias-variance trade-off)。虽然我们将在线性基函数模型中介绍这个概念,因为这样介绍可以使⽤简单的例⼦来说明⼀些基本的思想,但是实际上这种讨论有着更加普遍的适⽤性。
在第一章中,当平方损失函数时,最优的预测为
h
(
x
)
=
E
[
t
∣
x
]
=
∫
t
p
(
t
∣
x
)
d
t
h ( \boldsymbol { x } ) = \mathbb { E } [ t | \boldsymbol { x } ] = \int t p ( t | \boldsymbol { x } ) \mathrm { d } t
h(x)=E[t∣x]=∫tp(t∣x)dt可以进一步写成
E
[
L
]
=
∫
{
y
(
x
)
−
h
(
x
)
}
2
p
(
x
)
d
x
+
∬
{
h
(
x
)
−
t
}
2
p
(
x
,
t
)
d
x
d
t
\mathbb { E } [ L ] = \int \{ y ( \boldsymbol { x } ) - h ( \boldsymbol { x } ) \} ^ { 2 } p ( \boldsymbol { x } ) \mathrm { d } \boldsymbol { x } + \iint \{ h ( \boldsymbol { x } ) - t \} ^ { 2 } p ( \boldsymbol { x } , t ) \mathrm { d } \boldsymbol { x } \mathrm { d } t
E[L]=∫{y(x)−h(x)}2p(x)dx+∬{h(x)−t}2p(x,t)dxdt上式的第二部分为固有的噪声,而第一部分则为优化的目标,如果我们有无限多的数据,那么可以为任意精度得到
h
(
x
)
h(x)
h(x),从而得到
y
(
x
)
y(x)
y(x)的最优解。但在实际中,我们的数据不可能有无限多,因此不能够精确地得知回归函数
h
(
x
)
h(x)
h(x)。
如果我们使⽤由参数向量
w
w
w控制的函数
y
(
x
;
w
)
y(x;w)
y(x;w)对
h
(
x
)
h(x)
h(x)建模,那么从贝叶斯的观点来看,我们模型的不确定性是通过
w
w
w的后验概率分布来表⽰的。但是,频率学家的⽅法涉及到根据数据集
D
D
D对
w
w
w进⾏点估计,然后试着通过下⾯的思想实验来表⽰估计的不确定性。假设我们有许多数据集,每个数据集的⼤⼩为
N
N
N,并且每个数据集都独⽴地从分布
p
(
t
;
x
)
p(t; x)
p(t;x)中抽取。对于任意给定的数据集
D
D
D,我们可以运⾏我们的学习算法,得到⼀个预测函数
y
(
x
;
D
)
y(x;D)
y(x;D)。不同的数据集会给出不同的函数,从⽽给出不同的平⽅损失的值。这样,特定的学习算法的表现就可以通过取各个数据集上的表现的平均值来进⾏评估。那么对于某个数据集
D
D
D来说
{
y
(
x
;
D
)
−
E
D
[
y
(
x
;
D
)
]
+
E
D
[
y
(
x
;
D
)
]
−
h
(
x
)
}
2
=
{
y
(
x
;
D
)
−
E
D
[
y
(
x
;
D
)
]
}
2
+
{
E
D
[
y
(
x
;
D
)
]
−
h
(
x
)
}
2
+
2
{
y
(
x
;
D
)
−
E
D
[
y
(
x
;
D
)
]
}
{
E
D
[
y
(
x
;
D
)
]
−
h
(
x
)
}
\begin{aligned} \left\{ y ( \mathrm { x } ; \mathcal { D } ) - \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] + \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] - h ( \mathrm { x } ) \right\} ^ { 2 } \\ = & \left\{ y ( \mathrm { x } ; \mathcal { D } ) - \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] \right\} ^ { 2 } + \left\{ \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] - h ( \mathrm { x } ) \right\} ^ { 2 } \\ & + 2 \left\{ y ( \mathrm { x } ; \mathcal { D } ) - \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] \right\} \left\{ \mathbb { E } _ { \mathcal { D } } [ y ( \mathrm { x } ; \mathcal { D } ) ] - h ( \mathrm { x } ) \right\} \end{aligned}
{y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2={y(x;D)−ED[y(x;D)]}2+{ED[y(x;D)]−h(x)}2+2{y(x;D)−ED[y(x;D)]}{ED[y(x;D)]−h(x)}则
E
D
[
{
y
(
x
;
D
)
−
h
(
x
)
}
2
]
=
{
E
D
[
y
(
x
;
D
)
]
−
h
(
x
)
}
2
⎵
(
bias
)
2
+
E
D
[
{
y
(
x
;
D
)
−
E
D
[
y
(
x
;
D
)
]
}
2
]
⎵
variance
\begin{array} { l } { \mathbb { E } _ { \mathcal { D } } \left[ \{ y ( \mathbf { x } ; \mathcal { D } ) - h ( \mathbf { x } ) \} ^ { 2 } \right] } \\ { \quad = \underbrace { \left\{ \mathbb { E } _ { \mathcal { D } } [ y ( \mathbf { x } ; \mathcal { D } ) ] - h ( \mathbf { x } ) \right\} ^ { 2 } } _ { ( \text { bias } ) ^ { 2 } } + \underbrace { \mathbb { E } _ { \mathcal { D } } \left[ \left\{ y ( \mathbf { x } ; \mathcal { D } ) - \mathbb { E } _ { \mathcal { D } } [ y ( \mathbf { x } ; \mathcal { D } ) ] \right\} ^ { 2 } \right] } _ { \text { variance } } } \end{array}
ED[{y(x;D)−h(x)}2]=( bias )2
{ED[y(x;D)]−h(x)}2+ variance
ED[{y(x;D)−ED[y(x;D)]}2]第⼀项,被称为平⽅偏置(bias),表⽰所有数据集的平均预测与预期的回归函数之间的差异。第⼆项,被称为⽅差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况,因此也就度量了函数
y
(
x
;
D
)
y ( \boldsymbol { x } ; \mathcal { D } )
y(x;D)对于特定的数据集的选择的敏感程度。当带回第一章那个式子时,
expected loss
=
(
bias
)
2
+
variance
+
noise
\text { expected loss } = ( \text { bias } ) ^ { 2 } + \text { variance } + \text { noise }
expected loss =( bias )2+ variance + noise
(
b
i
a
s
)
2
=
∫
{
E
D
[
y
(
x
;
D
)
]
−
h
(
x
)
}
2
p
(
x
)
d
x
variance
=
∫
E
D
[
{
y
(
x
;
D
)
−
E
D
[
y
(
x
;
D
)
]
}
2
]
p
(
x
)
d
x
noise
=
∫
{
h
(
x
)
−
t
}
2
p
(
x
,
t
)
d
x
d
t
\begin{aligned} ( \mathrm { bias } ) ^ { 2 } & = \int \left\{ \mathbb { E } _ { \mathcal { D } } [ y ( \mathbf { x } ; \mathcal { D } ) ] - h ( \mathbf { x } ) \right\} ^ { 2 } p ( \mathbf { x } ) \mathrm { d } \mathbf { x } \\ \text { variance } & = \int \mathbb { E } _ { \mathcal { D } } \left[ \left\{ y ( \mathbf { x } ; \mathcal { D } ) - \mathbb { E } _ { \mathcal { D } } [ y ( \mathbf { x } ; \mathcal { D } ) ] \right\} ^ { 2 } \right] p ( \mathbf { x } ) \mathrm { d } \mathbf { x } \\ \text { noise } & = \int \{ h ( \mathbf { x } ) - t \} ^ { 2 } p ( \mathbf { x } , t ) \mathrm { d } \mathbf { x } \mathrm { d } t \end{aligned}
(bias)2 variance noise =∫{ED[y(x;D)]−h(x)}2p(x)dx=∫ED[{y(x;D)−ED[y(x;D)]}2]p(x)dx=∫{h(x)−t}2p(x,t)dxdt我们的⽬标是最⼩化期望损失,它可以分解为(平⽅)偏置、⽅差和⼀个常数噪声项的和。正如我们将看到的那样,在偏置和⽅差之间有⼀个折中。对于⾮常灵活的模型来说,偏置较⼩,⽅差较⼤。对于相对固定的模型来说,偏置较⼤,⽅差较⼩。有着最优预测能⼒的模型时在偏置和⽅差之间取得最优的平衡的模型。下面是通过控制正则化参数调节模型的复杂度,进而研究这个折中关系
。
虽然偏置-⽅差分解能够从频率学家的⾓度对模型的复杂度提供⼀些有趣的认识,但是它的实⽤价值很有限。这是因为偏置-⽅差分解依赖于对所有的数据集求平均,⽽在实际应⽤中我们只有⼀个观测数据集。如果我们有⼤量的已知规模的独⽴的训练数据集,那么我们最好的⽅法是把它们组合成⼀个⼤的训练集,这显然会降低给定复杂度的模型的过拟合程度。
3.3 Bayesian Linear Regression
贝叶斯方法则能很好地防止过拟合!
3.3.1 Parameter distribution
假设噪声精度
β
\beta
β已知,之前的
p
(
t
∣
w
)
=
∏
n
=
1
N
N
(
t
n
∣
w
T
ϕ
(
x
n
)
,
β
−
1
)
p ( \mathbf { t } | \mathbf { w } ) = \prod _ { n = 1 } ^ { N } \mathcal { N } \left( t _ { n } | \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) , \beta ^ { - 1 } \right)
p(t∣w)=n=1∏NN(tn∣wTϕ(xn),β−1)取共轭先验
p
(
w
)
=
N
(
w
∣
m
0
,
S
0
)
p ( \mathbf { w } ) = \mathcal { N } \left( \mathbf { w } | \mathbf { m } _ { 0 } , \mathbf { S } _ { 0 } \right)
p(w)=N(w∣m0,S0)则后验为
p
(
w
∣
t
)
=
N
(
w
∣
m
N
,
S
N
)
p ( \mathbf { w } | \mathbf { t } ) = \mathcal { N } \left( \mathbf { w } | \mathbf { m } _ { N } , \mathbf { S } _ { N } \right)
p(w∣t)=N(w∣mN,SN)
m
N
=
S
N
(
S
0
−
1
m
0
+
β
Φ
T
t
)
S
N
−
1
=
S
0
−
1
+
β
Φ
T
Φ
\begin{aligned} \mathbf { m } _ { N } & = \mathbf { S } _ { N } \left( \mathbf { S } _ { 0 } ^ { - 1 } \mathbf { m } _ { 0 } + \beta \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { t } \right) \\ \mathbf { S } _ { N } ^ { - 1 } & = \mathbf { S } _ { 0 } ^ { - 1 } + \beta \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \end{aligned}
mNSN−1=SN(S0−1m0+βΦTt)=S0−1+βΦTΦ当
S
0
=
α
−
1
I
\mathbf { S } _ { 0 } = \alpha ^ { - 1 } \mathbf { I }
S0=α−1I其中
α
→
0
\alpha \rightarrow 0
α→0时,此时的结果就变成了MLE估计的结果。这个结果跟第二章中的Noninformative priors很相似!同时贝叶斯估计天然地提供了序列解释意义,在观测到
N
−
1
N-1
N−1个数据时,此时的后验可以看成第
N
N
N个数据到来的先验!
为简单起见,我们将先验设置成简单的先验
p
(
w
∣
α
)
=
N
(
w
∣
0
,
α
−
1
I
)
p ( \mathbf { w } | \alpha ) = \mathcal { N } \left( \mathbf { w } | \mathbf { 0 } , \alpha ^ { - 1 } \mathbf { I } \right)
p(w∣α)=N(w∣0,α−1I)且这相应的后验变为
m
N
=
β
S
N
Φ
T
t
S
N
−
1
=
α
I
+
β
Φ
T
Φ
\begin{aligned} \mathbf { m } _ { N } & = \beta \mathbf { S } _ { N } \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { t } \\ \mathbf { S } _ { N } ^ { - 1 } & = \alpha \mathbf { I } + \beta \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \end{aligned}
mNSN−1=βSNΦTt=αI+βΦTΦ该log的后验概率为
ln
p
(
w
∣
t
)
=
−
β
2
∑
n
=
1
N
{
t
n
−
w
T
ϕ
(
x
n
)
}
2
−
α
2
w
T
w
+
c
o
n
s
t
\ln p ( \mathbf { w } | \mathbf { t } ) = - \frac { \beta } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 } - \frac { \alpha } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w } + \mathrm { const }
lnp(w∣t)=−2βn=1∑N{tn−wTϕ(xn)}2−2αwTw+const关于
w
\mathbf { w }
w的最大值优化与正则项的优化一致。下图为一个经典的贝叶斯学习的过程
当选择其它的先验分布
p
(
w
∣
α
)
=
[
q
2
(
α
2
)
1
/
q
1
Γ
(
1
/
q
)
]
M
exp
(
−
α
2
∑
j
=
1
M
∣
w
j
∣
q
)
p ( \mathbf { w } | \alpha ) = \left[ \frac { q } { 2 } \left( \frac { \alpha } { 2 } \right) ^ { 1 / q } \frac { 1 } { \Gamma ( 1 / q ) } \right] ^ { M } \exp \left( - \frac { \alpha } { 2 } \sum _ { j = 1 } ^ { M } \left| w _ { j } \right| ^ { q } \right)
p(w∣α)=[2q(2α)1/qΓ(1/q)1]Mexp(−2αj=1∑M∣wj∣q)最后化简后的MAP等效为
1
2
∑
n
=
1
N
{
t
n
−
w
T
ϕ
(
x
n
)
}
2
+
λ
2
∑
j
=
1
M
∣
w
j
∣
q
\frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 } + \frac { \lambda } { 2 } \sum _ { j = 1 } ^ { M } \left| w _ { j } \right| ^ { q }
21n=1∑N{tn−wTϕ(xn)}2+2λj=1∑M∣wj∣q
3.3.2 Predictive distribution
p
(
t
∣
t
,
α
,
β
)
=
∫
p
(
t
∣
w
,
β
)
p
(
w
∣
t
,
α
,
β
)
d
w
p ( t | \mathbf { t } , \alpha , \beta ) = \int p ( t | \mathbf { w } , \beta ) p ( \mathbf { w } | \mathbf { t } , \alpha , \beta ) \mathrm { d } \mathbf { w }
p(t∣t,α,β)=∫p(t∣w,β)p(w∣t,α,β)dw
p
(
t
∣
x
,
t
,
α
,
β
)
=
N
(
t
∣
m
N
T
ϕ
(
x
)
,
σ
N
2
(
x
)
)
p ( t | \mathbf { x } , \mathbf { t } , \alpha , \beta ) = \mathcal { N } \left( t | \mathbf { m } _ { N } ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { x } ) , \sigma _ { N } ^ { 2 } ( \mathbf { x } ) \right)
p(t∣x,t,α,β)=N(t∣mNTϕ(x),σN2(x))
σ
N
2
(
x
)
=
1
β
+
ϕ
(
x
)
T
S
N
ϕ
(
x
)
\sigma _ { N } ^ { 2 } ( \mathbf { x } ) = \frac { 1 } { \beta } + \phi ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { S } _ { N } \phi ( \mathbf { x } )
σN2(x)=β1+ϕ(x)TSNϕ(x)可以证明
σ
N
+
1
2
(
x
)
≤
σ
N
2
(
x
)
\sigma _ { N + 1 } ^ { 2 } ( \boldsymbol { x } ) \leq \sigma _ { N } ^ { 2 } ( \boldsymbol { x } )
σN+12(x)≤σN2(x),且
N
→
∞
N \rightarrow \infty
N→∞时,上式右边的第二部分就会趋于0,最终的方差只与噪声的方差有关。
如果我们使⽤局部的基函数(例如⾼斯基函数),那么在距离基函数中⼼⽐较远的区域,上式右边给出的预测⽅差的第⼆项的贡献将会趋于零,只剩下噪声的贡献 ?1。因此,当对基函数所在的区域之外的区域进⾏外插的时候,模型对于它做出的预测会变得相当确定,这通常不是我们想要的结果。通过使⽤被称为⾼斯过程的另⼀种贝叶斯回归⽅法,这个问题可以被避免。
3.3.3 Equivalent kernel
由于
y
(
x
,
w
)
=
∑
j
=
0
M
−
1
w
j
ϕ
j
(
x
)
=
w
T
ϕ
(
x
)
y ( \mathbf { x } , \mathbf { w } ) = \sum _ { j = 0 } ^ { M - 1 } w _ { j } \phi _ { j } ( \mathbf { x } ) = \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { x } )
y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)之前得到的后验的均值为
m
N
=
β
S
N
Φ
T
t
\mathbf { m } _ { N } = \beta \mathbf { S } _ { N } \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { t }
mN=βSNΦTt则
y
(
x
,
m
N
)
=
m
N
T
ϕ
(
x
)
=
β
ϕ
(
x
)
T
S
N
Φ
T
t
=
∑
n
=
1
N
β
ϕ
(
x
)
T
S
N
ϕ
(
x
n
)
t
n
y \left( \mathbf { x } , \mathbf { m } _ { N } \right) = \mathbf { m } _ { N } ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { x } ) = \beta \boldsymbol { \phi } ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { S } _ { N } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { t } = \sum _ { n = 1 } ^ { N } \beta \boldsymbol { \phi } ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { S } _ { N } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) t _ { n }
y(x,mN)=mNTϕ(x)=βϕ(x)TSNΦTt=n=1∑Nβϕ(x)TSNϕ(xn)tn可以将上式写成
y
(
x
,
m
N
)
=
∑
n
=
1
N
k
(
x
,
x
n
)
t
n
y \left( \mathbf { x } , \mathbf { m } _ { N } \right) = \sum _ { n = 1 } ^ { N } k \left( \mathbf { x } , \mathbf { x } _ { n } \right) t _ { n }
y(x,mN)=n=1∑Nk(x,xn)tn其中
k
(
x
,
x
′
)
=
β
ϕ
(
x
)
T
S
N
ϕ
(
x
′
)
k \left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \beta \phi ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { S } _ { N } \phi \left( \mathbf { x } ^ { \prime } \right)
k(x,x′)=βϕ(x)TSNϕ(x′)这个矩阵称为平滑矩阵(smoother matrix)或者等价核(equivalent kernel)。距离
x
x
x较近的数据点可以赋⼀个较⾼的权值,⽽距离x较远的数据点可以赋⼀个较低的权值。直观来看,与远处的证据相⽐,我们把局部的证据赋予更⾼的权值似乎是更合理的。注意,这种局部性不仅对于局部的⾼斯基函数成⽴,对于⾮局部的多项式基函数和sigmoid基函数也成⽴。
我们还可以获得更多的关于等价核的认识。考虑
y
(
x
)
y(x)
y(x)和
y
(
x
′
)
y(x^′)
y(x′)的协⽅差
cov
[
y
(
x
)
,
y
(
x
′
)
]
=
cov
[
ϕ
(
x
)
T
w
,
w
T
ϕ
(
x
′
)
]
=
ϕ
(
x
)
T
S
N
ϕ
(
x
′
)
=
β
−
1
k
(
x
,
x
′
)
\begin{aligned} \operatorname { cov } \left[ y ( \mathbf { x } ) , y \left( \mathbf { x } ^ { \prime } \right) \right] & = \operatorname { cov } \left[ \phi ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { w } , \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } ^ { \prime } \right) \right] \\ & = \phi ( \mathbf { x } ) ^ { \mathrm { T } } \mathbf { S } _ { N } \boldsymbol { \phi } \left( \mathbf { x } ^ { \prime } \right) = \beta ^ { - 1 } k \left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) \end{aligned}
cov[y(x),y(x′)]=cov[ϕ(x)Tw,wTϕ(x′)]=ϕ(x)TSNϕ(x′)=β−1k(x,x′)根据等价核的形式,我们可以看到在附近的点处的预测均值相关性较⾼,⽽对于距离较远的点对,相关性就较低。⽤核函数表⽰线性回归给出了解决回归问题的另⼀种⽅法。我们不引⼊⼀组基函数(它隐式地定义了⼀个等价的核),⽽是直接定义⼀个局部的核函数,然后在给定观测数据集的条件下,使⽤这个核函数对新的输⼊变量x做预测。这就引出了⽤于回归问题(以及分类问题)的⼀个很实⽤的框架,被称为⾼斯过程(Gaussian process)。后续将进行介绍。
需要说明的是,对于任意
x
x
x,有
∑
n
=
1
N
k
(
x
,
x
n
)
=
1
\sum _ { n = 1 } ^ { N } k \left( \mathbf { x } , \mathbf { x } _ { n } \right) = 1
n=1∑Nk(x,xn)=1这个可以采用一种非形式化的方法简单证明出来。很显然加和部分正好为对于所有
n
n
n,
t
n
=
1
t_n=1
tn=1的数据集,假设基函数是线性独⽴的,且数据点的数量多于基函数的数量,并且其中⼀个基函数是常量(对应于偏置参数),那么很明显我们可以精确地拟合训练数据,因此预测均值就是简单的
y
^
(
x
)
=
1
\widehat { y } ( \boldsymbol { x } ) = 1
y
(x)=1。由此得证。
最后我们需要说明的是,核函数可以写成
k
(
x
,
z
)
=
ψ
(
x
)
T
ψ
(
z
)
k ( \boldsymbol { x } , \boldsymbol { z } ) = \boldsymbol { \psi } ( \boldsymbol { x } ) ^ { T } \boldsymbol { \psi } ( \boldsymbol { z } )
k(x,z)=ψ(x)Tψ(z)其中
ψ
(
x
)
=
β
1
2
S
N
1
2
ψ
(
x
)
\boldsymbol { \psi } ( \boldsymbol { x } ) = \beta ^ { \frac { 1 } { 2 } } \boldsymbol { S } _ { N } ^ { \frac { 1 } { 2 } } \boldsymbol { \psi } ( \boldsymbol { x } )
ψ(x)=β21SN21ψ(x)
3.4 Bayesian Model Comparison
在第1章中,我们强调了过拟合的问题,也介绍了通过使⽤交叉验证的⽅法,来设置正则化参数的值,或者从多个模型中选择合适的⼀个。这⾥,我们从贝叶斯的⾓度考虑模型选择的问题。在本节中,我们的讨论是⾮常⼀般的。之后在3.5节,我们将会看到这些想法是如何应⽤到线性回归的正则化参数确定的问题中的。
正如我们将看到的那样,与最⼤似然估计相关联的过拟合问题可以通过对模型的参数进⾏求和或者积分的⽅式(⽽不是进⾏点估计)来避免。这样,模型可以直接在训练数据上进⾏⽐较,⽽不需要验证集。这使得所有的数据都能够被⽤于训练,并且避免了交叉验证当中每个模型要运⾏多次训练过程的问题。它也让多个复杂度参数可以同时在训练过程中被确定。例如,在第7章,我们会介绍相关向量机(relevance vector machine),这是⼀个贝叶斯模型,它对于每个训练数据点都有⼀个复杂度参数。
假设现在我们要比较
L
L
L个模型
{
M
i
}
\left\{ \mathcal { M } _ { i } \right\}
{Mi},在给定训练数据
D
\mathcal D
D时,
p
(
M
i
∣
D
)
∝
p
(
M
i
)
p
(
D
∣
M
i
)
p \left( \mathcal { M } _ { i } | \mathcal { D } \right) \propto p \left( \mathcal { M } _ { i } \right) p \left( \mathcal { D } | \mathcal { M } _ { i } \right)
p(Mi∣D)∝p(Mi)p(D∣Mi)其中
p
(
D
∣
M
i
)
p \left( \mathcal { D } | \mathcal { M } _ { i } \right)
p(D∣Mi)称为model evidence(marginal likelihood)。当我们知道上述的后验概率时,就能得到预测分布
p
(
t
∣
x
,
D
)
=
∑
i
=
1
L
p
(
t
∣
x
,
M
i
,
D
)
p
(
M
i
∣
D
)
p ( t | \mathbf { x } , \mathcal { D } ) = \sum _ { i = 1 } ^ { L } p \left( t | \mathbf { x } , \mathcal { M } _ { i } , \mathcal { D } \right) p \left( \mathcal { M } _ { i } | \mathcal { D } \right)
p(t∣x,D)=i=1∑Lp(t∣x,Mi,D)p(Mi∣D)这样的方式称为mixture distribution。
对于模型求平均的⼀个简单的近似是使⽤最可能的⼀个模型⾃⼰做预测。这被称为模型选择(model selection)。
当考虑模型的参数为
w
\mathbf w
w时,model evidence为
p
(
D
∣
M
i
)
=
∫
p
(
D
∣
w
,
M
i
)
p
(
w
∣
M
i
)
d
w
p \left( \mathcal { D } | \mathcal { M } _ { i } \right) = \int p \left( \mathcal { D } | \mathbf { w } , \mathcal { M } _ { i } \right) p \left( \mathbf { w } | \mathcal { M } _ { i } \right) \mathrm { d } \mathbf { w }
p(D∣Mi)=∫p(D∣w,Mi)p(w∣Mi)dw在贝叶斯公式中,model evidence还可以看成分母
p
(
w
∣
D
,
M
i
)
=
p
(
D
∣
w
,
M
i
)
p
(
w
∣
M
i
)
p
(
D
∣
M
i
)
p \left( \mathbf { w } | \mathcal { D } , \mathcal { M } _ { i } \right) = \frac { p \left( \mathcal { D } | \mathbf { w } , \mathcal { M } _ { i } \right) p \left( \mathbf { w } | \mathcal { M } _ { i } \right) } { p \left( \mathcal { D } | \mathcal { M } _ { i } \right) }
p(w∣D,Mi)=p(D∣Mi)p(D∣w,Mi)p(w∣Mi)
通过对参数的积分进⾏⼀个简单的近似,我们可以更加深刻地认识model evidence。⾸先考虑模型有⼀个参数
w
w
w的情形。这个参数的后验概率正⽐于
p
(
D
∣
w
)
p
(
w
)
p ( \mathcal { D } | w ) p ( w )
p(D∣w)p(w),其中为了简化记号,我们省略了它对于模型
M
i
\mathcal { M } _ { i }
Mi的依赖。如果我们假设后验分布在最⼤似然值
w
M
A
P
w _ { M A P }
wMAP 附近是⼀个尖峰,宽度为
Δ
w
p
o
s
t
e
r
i
o
r
\Delta w _ { \mathrm { posterior } }
Δwposterior,那么我们可以⽤被积函数的值乘以尖峰的宽度来近似这个积分。如果我们进⼀步假设先验分布是平的,宽度为
△
w
prior
\triangle w _ { \text { prior } }
△w prior ,即
p
(
w
)
=
1
/
Δ
w
prior
p ( w ) = 1 / \Delta w _ { \text { prior } }
p(w)=1/Δw prior ,那么我们有
p
(
D
)
=
∫
p
(
D
∣
w
)
p
(
w
)
d
w
≃
p
(
D
∣
w
M
A
P
)
Δ
w
p
o
s
t
e
r
i
o
r
Δ
w
p
r
i
o
r
p ( \mathcal { D } ) = \int p ( \mathcal { D } | w ) p ( w ) \mathrm { d } w \simeq p \left( \mathcal { D } | w _ { \mathrm { MAP } } \right) \frac { \Delta w _ { \mathrm { posterior } } } { \Delta w _ { \mathrm { prior } } }
p(D)=∫p(D∣w)p(w)dw≃p(D∣wMAP)ΔwpriorΔwposterior取log
ln
p
(
D
)
≃
ln
p
(
D
∣
w
M
A
P
)
+
ln
(
Δ
w
p
o
s
t
e
r
i
o
r
Δ
w
p
r
i
o
r
)
\ln p ( \mathcal { D } ) \simeq \ln p \left( \mathcal { D } | w _ { \mathrm { MAP } } \right) + \ln \left( \frac { \Delta w _ { \mathrm { posterior } } } { \Delta w _ { \mathrm { prior } } } \right)
lnp(D)≃lnp(D∣wMAP)+ln(ΔwpriorΔwposterior)其近似情况可以以下图来解释
第⼀项表⽰拟合由最可能参数给出的数据。对于平的先验分布来说,这对应于对数似然。第⼆项⽤于根据模型的复杂度来惩罚模型。由于
Δ
w
posterior
<
Δ
w
prior
\Delta w _ { \text { posterior } } < \Delta w _ { \text { prior } }
Δw posterior <Δw prior ,因此这⼀项为负,并且随着
Δ
w
posterior
/
Δ
w
prior
\Delta w _ { \text { posterior } } / \Delta w _ { \text { prior } }
Δw posterior /Δw prior 的减⼩,它的绝对值会增加。因此,如果参数精确地调整为后验分布的数据(就是说
Δ
w
posterior
\Delta w _ { \text { posterior } }
Δw posterior 很小),那么惩罚项会很⼤。
假如说模型中有
M
M
M个参数,我们可以采用类似的方法独立近似每个参数,且假设每个参数的
Δ
w
posterior
/
Δ
w
prior
\Delta w _ { \text { posterior } } / \Delta w _ { \text { prior } }
Δw posterior /Δw prior 都一样
ln
p
(
D
)
≃
ln
p
(
D
∣
w
M
A
P
)
+
M
ln
(
Δ
w
posterior
Δ
w
prior
)
\ln p ( \mathcal { D } ) \simeq \ln p \left( \mathcal { D } | \mathbf { w } _ { \mathrm { MAP } } \right) + M \ln \left( \frac { \Delta w _ { \text { posterior } } } { \Delta w _ { \text { prior } } } \right)
lnp(D)≃lnp(D∣wMAP)+Mln(Δw prior Δw posterior )因此,在这种⾮常简单的近似下,复杂度惩罚项的⼤⼩随着模型中可调节参数
M
M
M的数量线性增加。随着我们增加模型的复杂度,第⼀项通常会增⼤,因为⼀个更加复杂的模型能够更好地拟合数据,⽽第⼆项会减⼩,因为它依赖于
M
M
M。由最⼤模型证据确定的最优的模型复杂度需要在这两个相互竞争的项之间进⾏折中。我们后⾯会介绍这种近似的⼀个更加精炼的版本,那个版本依赖于后验概率分布的⾼斯近似。
通过上图,我们可以进⼀步深⼊认识贝叶斯模型⽐较,并且理解model evidence是如何倾向于选择中等复杂度的模型的。这⾥,横轴是可能的数据集构成的空间的⼀个⼀维表⽰,因此轴上的每个点都对应着⼀个具体的数据集。我们现在考虑三个模型
M
1
,
M
2
\mathcal { M } _ { 1 } , \mathcal { M } _ { 2 }
M1,M2 and
M
3
\mathcal { M } _ { 3 }
M3,复杂度依次增加。假设我们让这三个模型⾃动产⽣样本数据集,然后观察⽣成的数据集的分布。任意给定的模型都能够⽣成⼀系列不同的数据集,这是因为模型的参数由先验概率分布控制,对于任意⼀种参数的选择,在⽬标变量上都可能有随机的噪声。为了从具体的模型中⽣成⼀个特定的数据集,我们⾸先从先验分布
p
(
w
)
p(w)
p(w)中选择参数的值,然后对于这些参数的值,我们按照概率
p
(
D
∣
w
)
p ( \mathcal { D } | \mathbf { w } )
p(D∣w)对数据进⾏采样。⼀个简单的模型(例如,基于⼀阶多项式的模型)⼏乎没有变化性,因此⽣成的数据集彼此之间都⼗分相似。于是它的分布
p
(
D
)
p ( \mathcal { D })
p(D)就被限制在横轴的⼀个相对⼩的区域。相反,⼀个复杂的模型(例如九阶多项式)可以⽣成变化性相当⼤的数据集,因此它的分布
p
(
D
)
p ( \mathcal { D })
p(D)遍布了数据集空间的⼀个相当⼤的区域。由于概率分布
p
(
D
∣
w
)
p ( \mathcal { D } | \mathbf { w } )
p(D∣w)是归⼀化的,因此我们看到特定的数据集
D
0
\mathcal { D } _ { 0 }
D0对中等复杂度的模型有最⾼的模型证据。本质上说,简单的模型不能很好地拟合数据,⽽复杂的模型把它的预测概率散布于过多的可能的数据集当中,从⽽对它们当中的每⼀个赋予的概率都相对较⼩。
贝叶斯模型⽐较框架中隐含的⼀个假设是,⽣成数据的真实的概率分布包含在考虑的模型集合当中。如果这个假设确实成⽴,那么我们我们可以证明,平均来看,贝叶斯模型⽐较会倾向于选择出正确的模型。为了证明这⼀点,考虑两个模型
M
1
\mathcal { M } _ { 1 }
M1和
M
2
\mathcal { M } _ {2 }
M2,其中真实的概率分布对应于模型
M
1
\mathcal { M } _ { 1 }
M1。对于给定的有限数据集,确实有可能出现错误的模型反⽽使贝叶斯因⼦较⼤的事情。但是,如果我们把贝叶斯因⼦在数据集分布上进⾏平均,那么我们可以得到期望贝叶斯因⼦
∫
p
(
D
∣
M
1
)
ln
p
(
D
∣
M
1
)
p
(
D
∣
M
2
)
d
D
\int p \left( \mathcal { D } | \mathcal { M } _ { 1 } \right) \ln \frac { p \left( \mathcal { D } | \mathcal { M } _ { 1 } \right) } { p \left( \mathcal { D } | \mathcal { M } _ { 2 } \right) } \mathrm { d } \mathcal { D }
∫p(D∣M1)lnp(D∣M2)p(D∣M1)dD以上刚好为一个KL散度,只有当两个分布相同时,才为0,其他时候大于0,因此平均来看还是
p
(
D
∣
M
1
)
>
p
(
D
∣
M
2
)
p \left( \mathcal { D } | \mathcal { M } _ { 1 } \right)>p \left( \mathcal { D } | \mathcal { M } _ { 2 } \right)
p(D∣M1)>p(D∣M2),因此会趋向于选择正确的模型!
我们已经看到,贝叶斯框架避免了过拟合的问题,并且使得模型能够基于训练数据⾃⾝进⾏对⽐。但是,与模式识别中任何其他的⽅法⼀样,贝叶斯⽅法需要对模型的形式作出假设,并且如果这些假设不合理,那么结果就会出错。特别地,我们从上2图可以看出,模型证据对先验分布的很多⽅⾯都很敏感,例如在低概率处的⾏为等等。实际上,如果先验分布是反常的,那么模型证据⽆法定义,因为反常的先验分布有着任意的缩放因⼦(换句话说,归⼀化系数⽆法定义,因为分布根本⽆法被归⼀化)。如果我们考虑⼀个正常的先验分布,然后取⼀个适当的极限来获得⼀个反常的先验(例如⾼斯先验中,我们令⽅差为⽆穷⼤),那么模型证据就会趋于零,这可以从公式和上2图中看出来(此时先验的
Δ
w
prior
\Delta w _ { \text { prior } }
Δw prior 无穷大)。但是这种情况下也可能通过⾸先考虑两个模型的证据⽐值,然后取极限的⽅式来得到⼀个有意义的答案。
因此,在实际应⽤中,⼀种明智的做法是,保留⼀个独⽴的测试数据集,这个数据集⽤来评估最终系统的整体表现。
3.5 The Evidence Approximation
在处理线性基函数模型的纯粹的贝叶斯⽅法中,我们会引⼊超参数
α
\alpha
α和
β
\beta
β的先验分布,然后通过对超参数以及参数
w
\mathbf w
w求积分的⽅式做预测。但是,虽然我们可以解析地求出对
w
\mathbf w
w的积分或者求出对超参数的积分,但是对所有这些变量完整地求积分是没有解析解的。这⾥我们讨论⼀种近似⽅法。这种⽅法中,我们⾸先对参数w求积分,得到边缘似然函数(marginal likelihood function),然后通过最⼤化边缘似然函数,确定超参数的值。
p
(
t
∣
t
)
=
∭
p
(
t
∣
w
,
β
)
p
(
w
∣
t
,
α
,
β
)
p
(
α
,
β
∣
t
)
d
w
d
α
d
β
p ( t | \mathbf { t } ) = \iiint p ( t | \boldsymbol { w } , \beta ) p ( \boldsymbol { w } | \mathbf { t } , \alpha , \beta ) p ( \alpha , \beta | \mathbf { t } ) \mathrm { d } \boldsymbol { w } \mathrm { d } \alpha \mathrm { d } \beta
p(t∣t)=∭p(t∣w,β)p(w∣t,α,β)p(α,β∣t)dwdαdβ其中
p
(
t
∣
w
,
β
)
=
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
p ( t |\mathbf { w } , \beta ) = \mathcal { N } \left( t | y ( \mathbf { x } , \mathbf { w } ) , \beta ^ { - 1 } \right)
p(t∣w,β)=N(t∣y(x,w),β−1)
p
(
w
∣
t
,
α
,
β
)
=
N
(
w
∣
m
N
,
S
N
)
p ( \mathbf { w } | \mathbf { t } ,\alpha,\beta) = \mathcal { N } \left( \mathbf { w } | \mathbf { m } _ { N } , \mathbf { S } _ { N } \right)
p(w∣t,α,β)=N(w∣mN,SN)
m
N
=
β
S
N
Φ
T
t
S
N
−
1
=
α
I
+
β
Φ
T
Φ
\begin{aligned} \mathbf { m } _ { N } & = \beta \mathbf { S } _ { N } \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { t } \\ \mathbf { S } _ { N } ^ { - 1 } & = \alpha \mathbf { I } + \beta \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \end{aligned}
mNSN−1=βSNΦTt=αI+βΦTΦ如果后验分布
p
(
α
,
β
∣
t
)
p ( \alpha , \beta | \mathbf { t } )
p(α,β∣t)的峰值为
α
^
\widehat { \alpha }
α
和
β
^
\widehat { \beta }
β
,那么预测分布可以近似为
p
(
t
∣
t
)
≃
p
(
t
∣
t
,
α
^
,
β
^
)
=
∫
p
(
t
∣
w
,
β
^
)
p
(
w
∣
t
,
α
^
,
β
^
)
d
w
p ( t | \mathbf { t } ) \simeq p ( t | \mathbf { t } , \widehat { \alpha } , \widehat { \beta } ) = \int p ( t | \mathbf { w } , \widehat { \beta } ) p ( \mathbf { w } | \mathbf { t } , \widehat { \alpha } , \widehat { \beta } ) \mathrm { d } \mathbf { w }
p(t∣t)≃p(t∣t,α
,β
)=∫p(t∣w,β
)p(w∣t,α
,β
)dw对于
α
\alpha
α和
β
\beta
β来说,
p
(
α
,
β
∣
t
)
∝
p
(
t
∣
α
,
β
)
p
(
α
,
β
)
p ( \alpha , \beta | \mathbf { t } ) \propto p ( \mathbf { t } | \alpha , \beta ) p ( \alpha , \beta )
p(α,β∣t)∝p(t∣α,β)p(α,β)当超参数先验
p
(
α
,
β
)
p ( \alpha , \beta )
p(α,β)很平坦时,
α
^
\widehat { \alpha }
α
和
β
^
\widehat { \beta }
β
就可表示为最大化
p
(
t
∣
α
,
β
)
p ( \mathbf { t } | \boldsymbol { \alpha } , \beta )
p(t∣α,β)的值。这将使我们能够从训练数据本⾝确定这些超参数的值,⽽不需要交叉验证。
需要说明的是,当我对
α
,
β
\alpha , \beta
α,β选择Gamma共轭先验,那么当积分积掉这两个超参时,会得到
w
w
w上的学生t分布,这样的t分布再对
w
w
w上积分得不到解析的解。后续可以采用拉普拉斯近似求解。
回到证据框架中,我们注意到有两种⽅法可以⽤来最⼤化对数证据。我们可以解析地计算证据函数,然后令它的导数等于零,得到了对于
α
,
β
\alpha , \beta
α,β的重新估计⽅程(将在3.5.2节讨论)。另⼀种⽅法是,我们使⽤⼀种被称为期望最⼤化(EM)算法的⽅法,这个算法将在9.3.4节讨论,那⾥我们还会证明这两种⽅法会收敛到同⼀个解。
3.5.1 Evaluation of the evidence function
边缘似然函数
p
(
t
∣
α
,
β
)
=
∫
p
(
t
∣
w
,
β
)
p
(
w
∣
α
)
d
w
p ( \mathbf { t } | \alpha , \beta ) = \int p ( \mathbf { t } | \mathbf { w } , \beta ) p ( \mathbf { w } | \alpha ) \mathrm { d } \mathbf { w }
p(t∣α,β)=∫p(t∣w,β)p(w∣α)dw
p
(
t
∣
α
,
β
)
=
(
β
2
π
)
N
/
2
(
α
2
π
)
M
/
2
∫
exp
{
−
E
(
w
)
}
d
w
p ( \mathbf { t } | \alpha , \beta ) = \left( \frac { \beta } { 2 \pi } \right) ^ { N / 2 } \left( \frac { \alpha } { 2 \pi } \right) ^ { M / 2 } \int \exp \{ - E ( \mathbf { w } ) \} \mathrm { d } \mathbf { w }
p(t∣α,β)=(2πβ)N/2(2πα)M/2∫exp{−E(w)}dw其中
E
(
w
)
=
β
E
D
(
w
)
+
α
E
W
(
w
)
=
β
2
∥
t
−
Φ
w
∥
2
+
α
2
w
T
w
\begin{aligned} E ( \mathbf { w } ) & = \beta E _ { D } ( \mathbf { w } ) + \alpha E _ { W } ( \mathbf { w } ) \\ & = \frac { \beta } { 2 } \| \mathbf { t } - \mathbf { \Phi } \mathbf { w } \| ^ { 2 } + \frac { \alpha } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w } \end{aligned}
E(w)=βED(w)+αEW(w)=2β∥t−Φw∥2+2αwTw将上式化为关于
w
\mathbf w
w的二次型
E
(
w
)
=
E
(
m
N
)
+
1
2
(
w
−
m
N
)
T
A
(
w
−
m
N
)
E ( \mathbf { w } ) = E \left( \mathbf { m } _ { N } \right) + \frac { 1 } { 2 } \left( \mathbf { w } - \mathbf { m } _ { N } \right) ^ { \mathrm { T } } \mathbf { A } \left( \mathbf { w } - \mathbf { m } _ { N } \right)
E(w)=E(mN)+21(w−mN)TA(w−mN)其中
A
=
α
I
+
β
Φ
T
Φ
\mathbf { A } = \alpha \mathbf { I } + \beta \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { \Phi }
A=αI+βΦTΦ
E
(
m
N
)
=
β
2
∥
t
−
Φ
m
N
∥
2
+
α
2
m
N
T
m
N
E \left( \mathbf { m } _ { N } \right) = \frac { \beta } { 2 } \left\| \mathbf { t } - \mathbf { \Phi } \mathbf { m } _ { N } \right\| ^ { 2 } + \frac { \alpha } { 2 } \mathbf { m } _ { N } ^ { \mathrm { T } } \mathbf { m } _ { N }
E(mN)=2β∥t−ΦmN∥2+2αmNTmN
A
\mathbf A
A为
E
(
w
)
E ( \mathbf { w } )
E(w)的海森矩阵
A
=
∇
∇
E
(
w
)
\mathbf { A } = \nabla \nabla E ( \mathbf { w } )
A=∇∇E(w)刚好有
m
N
=
β
A
−
1
Φ
T
t
\mathbf { m } _ { N } = \beta \mathbf { A } ^ { - 1 } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { t }
mN=βA−1ΦTt那么
∫
exp
{
−
E
(
w
)
}
d
w
=
exp
{
−
E
(
m
N
)
}
∫
exp
{
−
1
2
(
w
−
m
N
)
T
A
(
w
−
m
N
)
}
d
w
=
exp
{
−
E
(
m
N
)
}
(
2
π
)
M
/
2
∣
A
∣
−
1
/
2
\begin{array} { l } { \int \exp \{ - E ( \mathbf { w } ) \} \mathrm { d } \mathbf { w } } \\ { = \exp \left\{ - E \left( \mathbf { m } _ { N } \right) \right\} \int \exp \left\{ - \frac { 1 } { 2 } \left( \mathbf { w } - \mathbf { m } _ { N } \right) ^ { \mathrm { T } } \mathbf { A } \left( \mathbf { w } - \mathbf { m } _ { N } \right) \right\} \mathrm { d } \mathbf { w } } \\ { \quad = \exp \left\{ - E \left( \mathbf { m } _ { N } \right) \right\} ( 2 \pi ) ^ { M / 2 } | \mathbf { A } | ^ { - 1 / 2 } } \end{array}
∫exp{−E(w)}dw=exp{−E(mN)}∫exp{−21(w−mN)TA(w−mN)}dw=exp{−E(mN)}(2π)M/2∣A∣−1/2
ln
p
(
t
∣
α
,
β
)
=
M
2
ln
α
+
N
2
ln
β
−
E
(
m
N
)
−
1
2
ln
∣
A
∣
−
N
2
ln
(
2
π
)
\ln p ( \mathbf { t } | \alpha , \beta ) = \frac { M } { 2 } \ln \alpha + \frac { N } { 2 } \ln \beta - E \left( \mathbf { m } _ { N } \right) - \frac { 1 } { 2 } \ln | \mathbf { A } | - \frac { N } { 2 } \ln ( 2 \pi )
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)这样就给出了model evidence的表达式,为了更加深刻地理解这个。在第一章中有这样两个图
我们看到M = 0的多项式对数据的拟合效果⾮常差,结果模型证据的值也相对较⼩。M = 1的多项式对于数据的拟合效果有了显著的提升,因此模型证据变⼤了。但是,对于M = 2的多项式,拟合效果又变得很差,因为产⽣数据的正弦函数是奇函数,因此在多项式展开中没有偶次项。事实上,图1.5给出的数据残差从M = 1到M = 2只有微⼩的减⼩。由于复杂的模型有着更⼤的复杂度惩罚项,因此从M = 1到M = 2,模型证据实际上减⼩了。当M = 3时,我们对于数据的拟合效果有了很⼤的提升,如图1.4所⽰,因此模型证据再次增⼤,给出了多项式拟合的最⾼的模型证据。进⼀步增加M的值,只能少量地提升拟合的效果,但是模型的复杂度却越来越复杂,这导致整体的模型证据会下降。再次看图1.5,我们看到泛化错误在M = 3到M = 8之间⼏乎为常数,因此单独基于这幅图很难对模型做出选择。然⽽,模型证据的值明显地倾向于选择M = 3的模型,因为这是能很好地解释观测数据的最简单的模型。
3.5.2 Maximizing the evidence function
首先考虑特征方程为 ( β Φ T Φ ) u i = λ i u i \left( \beta \boldsymbol { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \right) \mathbf { u } _ { i } = \lambda _ { i } \mathbf { u } _ { i } (βΦTΦ)ui=λiui那么 A \mathbf A A的特征值为 α + λ i \alpha + \lambda _ { i } α+λi,则 d d α ln ∣ A ∣ = d d α ln ∏ i ( λ i + α ) = d d α ∑ i ln ( λ i + α ) = ∑ i 1 λ i + α \frac { d } { d \alpha } \ln | \mathbf { A } | = \frac { d } { d \alpha } \ln \prod _ { i } \left( \lambda _ { i } + \alpha \right) = \frac { d } { d \alpha } \sum _ { i } \ln \left( \lambda _ { i } + \alpha \right) = \sum _ { i } \frac { 1 } { \lambda _ { i } + \alpha } dαdln∣A∣=dαdlni∏(λi+α)=dαdi∑ln(λi+α)=i∑λi+α1关于 α \alpha α求导为0的式子 0 = M 2 α − 1 2 m N T m N − 1 2 ∑ i 1 λ i + α 0 = \frac { M } { 2 \alpha } - \frac { 1 } { 2 } \mathbf { m } _ { N } ^ { \mathrm { T } } \mathbf { m } _ { N } - \frac { 1 } { 2 } \sum _ { i } \frac { 1 } { \lambda _ { i } + \alpha } 0=2αM−21mNTmN−21i∑λi+α1 α m N T m N = M − α ∑ i 1 λ i + α = γ \alpha \mathbf { m } _ { N } ^ { \mathrm { T } } \mathbf { m } _ { N } = M - \alpha \sum _ { i } \frac { 1 } { \lambda _ { i } + \alpha } = \gamma αmNTmN=M−αi∑λi+α1=γ γ = ∑ i λ i α + λ i \gamma = \sum _ { i } \frac { \lambda _ { i } } { \alpha + \lambda _ { i } } γ=i∑α+λiλi最优解为 α = γ m N T m N \alpha = \frac { \gamma } { \mathbf { m } _ { N } ^ { \mathrm { T } } \mathbf { m } _ { N } } α=mNTmNγ但 γ \gamma γ中包好了 α \alpha α,且 m N \mathbf { m } _ { N } mN中也包含 α \alpha α,因此可以考虑迭代的方式求 α \alpha α。同样地对于 β \beta β d d β ln ∣ A ∣ = d d β ∑ i ln ( λ i + α ) = 1 β ∑ i λ i λ i + α = γ β \frac { d } { d \beta } \ln | \mathbf { A } | = \frac { d } { d \beta } \sum _ { i } \ln \left( \lambda _ { i } + \alpha \right) = \frac { 1 } { \beta } \sum _ { i } \frac { \lambda _ { i } } { \lambda _ { i } + \alpha } = \frac { \gamma } { \beta } dβdln∣A∣=dβdi∑ln(λi+α)=β1i∑λi+αλi=βγ 0 = N 2 β − 1 2 ∑ n = 1 N { t n − m N T ϕ ( x n ) } 2 − γ 2 β 0 = \frac { N } { 2 \beta } - \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { m } _ { N } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 } - \frac { \gamma } { 2 \beta } 0=2βN−21n=1∑N{tn−mNTϕ(xn)}2−2βγ 1 β = 1 N − γ ∑ n = 1 N { t n − m N T ϕ ( x n ) } 2 \frac { 1 } { \beta } = \frac { 1 } { N - \gamma } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { m } _ { N } ^ { \mathrm { T } } \phi \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 } β1=N−γ1n=1∑N{tn−mNTϕ(xn)}2同样采取迭代的方式求解。
3.5.3 Effective number of parameters
当
α
=
0
\alpha=0
α=0时,绿色的先验就会无穷大,也就是之前的noninformative prior,此时众数(mode)就是最大似然参数,而对于非零的
α
\alpha
αmode为MAP估计点,如图蓝色点。特征值
λ
i
\lambda_i
λi定义了似然函数的曲率,图中
λ
1
>
λ
2
\lambda_1>\lambda_2
λ1>λ2,由于
β
Φ
T
Φ
\beta \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { \Phi }
βΦTΦ为正定的,那么其特征值也都是大于0的,则
λ
i
/
(
λ
i
+
α
)
\lambda _ { i } / \left( \lambda _ { i } + \alpha \right)
λi/(λi+α)在0和1之间。可以看出当
λ
i
/
(
λ
i
+
α
)
−
−
>
1
\lambda _ { i } / \left( \lambda _ { i } + \alpha \right) --> 1
λi/(λi+α)−−>1时,参数将会很好地被数据所约束,接近MLE,然而当趋向于0时,参数就会很大程度被先验确定。因此称
γ
\gamma
γ为measures the effective total number of well determined parameters.
下面研究下
β
\beta
β,之前的MLE
1
β
M
L
=
1
N
∑
n
=
1
N
{
t
n
−
w
M
L
T
ϕ
(
x
n
)
}
2
\frac { 1 } { \beta _ { \mathrm { ML } } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { w } _ { \mathrm { ML } } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 }
βML1=N1n=1∑N{tn−wMLTϕ(xn)}2而上一部分得到的为
1
β
=
1
N
−
γ
∑
n
=
1
N
{
t
n
−
m
N
T
ϕ
(
x
n
)
}
2
\frac { 1 } { \beta } = \frac { 1 } { N - \gamma } \sum _ { n = 1 } ^ { N } \left\{ t _ { n } - \mathbf { m } _ { N } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) \right\} ^ { 2 }
β1=N−γ1n=1∑N{tn−mNTϕ(xn)}2它们的区别在于,最⼤似然结果的分母是数据点的数量
N
N
N,⽽贝叶斯结果的分母是
N
−
γ
N-\gamma
N−γ 。之前对于高斯分布的方差估计为
σ
M
L
2
=
1
N
∑
n
=
1
N
(
x
n
−
μ
M
L
)
2
\sigma _ { \mathrm { ML } } ^ { 2 } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu _ { \mathrm { ML } } \right) ^ { 2 }
σML2=N1n=1∑N(xn−μML)2但是这个估计是有偏的,而无偏的估计为
σ
M
A
P
2
=
1
N
−
1
∑
n
=
1
N
(
x
n
−
μ
M
L
)
2
\sigma _ { \mathrm { MAP } } ^ { 2 } = \frac { 1 } { N - 1 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu _ { \mathrm { ML } } \right) ^ { 2 }
σMAP2=N−11n=1∑N(xn−μML)2分母中的因⼦
N
−
1
N -1
N−1反映了模型中的⼀个⾃由度被⽤于拟合均值的事实,它抵消了最⼤似然解的偏差。现在考虑线性回归模型的对应的结果。⽬标分布的均值现在由函数
w
T
ϕ
(
x
)
\mathbf { w } ^ { \mathrm { T } } \phi ( \mathbf { x } )
wTϕ(x)给出,它包含了
M
M
M个参数。但是,并不是所有的这些参数都按照数据进⾏了调解。由数据确定的有效参数的数量为,剩余的
M
−
γ
M-\gamma
M−γ个参数被先验概率分布设置为较⼩的值。这可以通过⽅差的贝叶斯结果中的因⼦
N
−
γ
N-\gamma
N−γ 反映出来,因此修正了最⼤似然结果的偏差。
当
N
≫
M
N \gg M
N≫M时,数据点的数量⼤于参数的数量,因为
Φ
T
Φ
\boldsymbol { \Phi } ^ { T } \boldsymbol { \Phi }
ΦTΦ涉及到数据点的隐式求和,因此特征值
λ
i
\lambda _ { i }
λi随着数据集规模的增加⽽增⼤。在这种情况下,
γ
=
M
\gamma = M
γ=M,并且
α
\alpha
α和
β
\beta
β 的重新估计⽅程变为了
α
=
M
2
E
W
(
m
N
)
β
=
N
2
E
D
(
m
N
)
\begin{aligned} \alpha & = \frac { M } { 2 E _ { W } \left( \mathbf { m } _ { N } \right) } \\ \beta & = \frac { N } { 2 E _ { D } \left( \mathbf { m } _ { N } \right) } \end{aligned}
αβ=2EW(mN)M=2ED(mN)N
3.6 Limitations of Fixed Basis Functions
在本章中,我们已经关注了由固定的⾮线性基函数的线性组合组成的模型。我们已经看到,对于参数的线性性质的假设产⽣了⼀系列有⽤的性质,包括最⼩平⽅问题的解析解,以及容易计算的贝叶斯⽅法。此外,对于⼀个合适的基函数的选择,我们可以建⽴输⼊向量到⽬标值之间的任意⾮线性映射。在下⼀章中,我们会研究类似的⽤于分类的模型。
因此,似乎这样的模型建⽴的解决模式识别问题的通⽤框架。不幸的是,线性模型有⼀些重要的局限性,这使得我们在后续的章节中要转⽽关注更加复杂的模型,例如⽀持向量机和神经⽹络。
困难的产⽣主要是因为我们假设了基函数在观测到任何数据之前就被固定了下来,⽽这正是1.4节讨论的维度灾难问题的⼀个表现形式。结果,基函数的数量随着输⼊空间的维度
D
D
D迅速增长,通常是指数⽅式的增长。
幸运的是,真实数据集有两个性质,可以帮助我们缓解这个问题。第⼀,数据向量
{
x
n
}
\left\{ x _ { n } \right\}
{xn}通常位于⼀个⾮线性流形内部。由于输⼊变量之间的相关性,这个流形本⾝的维度⼩于输⼊空间的维度。我们将在第12章中讨论⼿写数字识别时给出⼀个例⼦来说明这⼀点。如果我们使⽤局部基函数,那么我们可以让基函数只分布在输⼊空间中包含数据的区域。这种⽅法被⽤在径向基函数⽹络中,也被⽤在⽀持向量机和相关向量机当中。神经⽹络模型使⽤可调节的基函数,这些基函数有着sigmoid⾮线性的性质。神经⽹络可以通过调节参数,使得在输⼊空间的区域中基函数会按照数据流形发⽣变化。第⼆,⽬标变量可能只依赖于数据流形中的少量可能的⽅向。利⽤这个性质,神经⽹络可以通过选择输⼊空间中基函数产⽣响应的⽅向。