机器学习笔记——8 学习的一般理论
在第一章绪论中,我们曾经讲到,机器学习是关于学习算法的学问,在前面的文章中,我们主要介绍了一些具体的学习算法的例子,而本文将从更高和更抽象的角度,讨论学习算法的一般化的理论,主要涉及到泛化误差(generalization error) 和经验误差(empirical error) 之间的量化理论,以及我们为了获得有最小泛化误差的假设,但实际上却是通过最小化经验误差来获得 h ^ \hat{h} h^,这样做的合理性和理论保证。
泛化误差的分解:偏差与方差的权衡(The Bias-Variance Tradeoff)
对于一个学习问题,我们可以选择不同的模型进行参数的学习,假设客观上的模型为
y
=
f
(
x
)
+
ϵ
y = f(x) + \epsilon
y=f(x)+ϵ其中
E
(
ϵ
)
=
0
E(\epsilon) = 0
E(ϵ)=0
V
a
r
(
ϵ
)
=
σ
2
Var(\epsilon) = \sigma^2
Var(ϵ)=σ2而我们的从训练集
S
S
S中学到的模型记之为
f
S
^
(
x
)
\hat{f_S}(x)
fS^(x),特别要注意,这里的
f
S
^
(
x
)
\hat{f_S}(x)
fS^(x)区别于
f
(
x
)
f(x)
f(x),后者是一个固定的数,前者是一个随机变量,因为模型
f
S
^
\hat{f_S}
fS^决定于训练集
S
S
S,而训练集
S
S
S是不确定的。
在接下的讨论中,我们将看到泛化误差可以被分解成三部分。
E
(
(
y
−
f
S
^
(
x
)
)
2
)
=
E
(
(
f
(
x
)
+
ϵ
−
f
S
^
(
x
)
)
2
)
=
σ
2
+
E
(
(
f
S
^
(
x
)
−
f
(
x
)
)
2
)
=
σ
2
+
V
a
r
(
f
S
^
(
x
)
)
+
(
E
(
f
S
^
(
x
)
)
−
f
(
x
)
)
2
=
σ
2
+
V
a
r
(
f
S
^
(
x
)
)
+
(
B
i
a
s
f
S
^
(
x
)
)
2
\begin{aligned} E((y - \hat{f_S}(x))^2) = & E((f(x) + \epsilon - \hat{f_S}(x))^2) \\ = & \sigma^2 +E((\hat{f_S}(x) - f(x))^2) \\ = & \sigma^2 + Var(\hat{f_S}(x)) + (E(\hat{f_S}(x)) - f(x))^2 \\ = & \sigma^2 + Var(\hat{f_S}(x)) + (Bias ~\hat{f_S}(x))^2 \end{aligned}
E((y−fS^(x))2)====E((f(x)+ϵ−fS^(x))2)σ2+E((fS^(x)−f(x))2)σ2+Var(fS^(x))+(E(fS^(x))−f(x))2σ2+Var(fS^(x))+(Bias fS^(x))2因此我们来讨论模型选择是如何影响到泛化误差的。
- 欠拟合(Underfitting):模型并没有充分地从训练集中获取到足够的信息,因此没有充分地建立属性值同便签值之间的关系。此时就会有 E ( f S ^ ( x ) ) ! = f ( x ) E(\hat{f_S}(x)) ~!=f(x) E(fS^(x)) !=f(x)就会导致泛化误差中的偏差项 ( B i a s f S ^ ( x ) ) 2 (Bias ~\hat{f_S}(x))^2 (Bias fS^(x))2变大。
- 过拟合(Overfitting):模型对训练集中的数据有很好的拟合,但是对属性值和便签值之间建立的关系,无法泛化到训练集外广大的数据。这种情况往往模型会比较复杂,模型中包含的参数也会比较多。因此这就会导致泛化误差中的方差项 V a r ( f S ^ ( x ) ) Var(\hat{f_S}(x)) Var(fS^(x))变大。
- 本身噪音过多(noisy):这种情况说明不是模型选择的问题,比如我们对属性和便签值进行建模,但是属性值和便签值本身并没有很强的联系,这种情况就会导致 σ 2 \sigma^2 σ2变大。
上面我们看到泛化误差的分解情况,同时也看到,方差和偏差往往是不可兼得的, 当我们选择一个太简单的模型时,此时无法充分体现出联系;但选择一个太复杂的模型是,此时就会导致模型方差太大。因此需要根据实际的情况权衡利弊,具体情况具体分析。
关于泛化误差的学习理论
接下来我们抽象地来看学习的过程,实际上我们是通过最小化训练集上的误差来确定模型
f
S
^
\hat{f_S}
fS^的,我们称该误差为经验误差(Empirical error),与之相对应的是泛化误差,最小化泛化误差才是我们真正想要的。
这里有三个我们要解决的关键问题:
- 我们通过最小化经验误差(Empirical risk minimization,EMR) 得到的模型 f S ^ \hat{f_S} fS^,但是经验误差是否能够用来估计泛化误差?是否具有相合性?
- 经验误差和泛化误差之间量化的理论是什么?
- 通过EMR选出来的假设 f S ^ \hat{f_S} fS^和客观上最好的假设 f f f,其泛化误差的差距可以被控制住吗?
为了说明上述问题,我们现在只考虑二分类问题,而对于多分类和回归的情况,本文所讨论的方法都是可以"泛化"到其上的。
假设样本数据是独立同分布的,即训练集为
S
=
{
(
x
(
i
)
,
y
(
i
)
)
;
i
=
1
,
.
.
.
,
m
}
S = \{(x^{(i)},y^{(i)}); i = 1, ... , m\}
S={(x(i),y(i));i=1,...,m},其中
y
∈
{
0
,
1
}
y \in \{0,1\}
y∈{0,1},记我们关注的假设空间为
H
H
H。则泛化误差为
ϵ
(
h
)
=
P
(
x
,
y
)
∈
D
(
h
(
x
)
!
=
y
)
\epsilon(h) = P_{(x,y) \in D}(h(x) != y )
ϵ(h)=P(x,y)∈D(h(x)!=y)经验误差为
ϵ
S
^
(
h
)
=
1
m
∑
i
=
1
m
1
{
h
(
x
(
i
)
)
!
=
y
(
i
)
}
\hat{\epsilon_S}(h) = \frac{1}{m}\sum_{i = 1}^{m}1\{h(x^{(i)}) != y^{(i)}\}
ϵS^(h)=m1i=1∑m1{h(x(i))!=y(i)}这里,我们根据大数定律,即可发现,当样本量足够多时,经验误差与泛化误差的差异限制在某个差距的概率趋于一。根据切比雪夫不等式,有
P
{
∣
ϵ
S
^
(
h
)
−
ϵ
(
h
)
∣
>
γ
}
<
α
m
γ
2
P\{|\hat{\epsilon_S}(h) - \epsilon(h)| > \gamma \} < \frac{\alpha}{m\gamma^2}
P{∣ϵS^(h)−ϵ(h)∣>γ}<mγ2α这里我们不用切比雪夫不等式,利用霍夫丁不等式(Hoeffding’s inequality),有
P
{
∣
ϵ
S
^
(
h
)
−
ϵ
(
h
)
∣
>
γ
}
<
2
e
x
p
(
−
2
γ
2
m
)
P\{|\hat{\epsilon_S}(h) - \epsilon(h)| > \gamma \} < 2exp(-2\gamma^2m)
P{∣ϵS^(h)−ϵ(h)∣>γ}<2exp(−2γ2m)现在我们考虑假设空间
H
H
H只有有限个假设,即
∣
H
∣
=
k
|H| = k
∣H∣=k。则当我们考虑整个假设空间的泛化误差时,利用概率论中
P
(
∪
i
=
1
k
A
i
)
<
∑
i
=
1
k
P
(
A
i
)
P(\cup_{i = 1}^{k} A_i) < \sum_{i = 1}^{k}P(A_i)
P(∪i=1kAi)<∑i=1kP(Ai),我们有
P
(
∃
h
∈
H
,
∣
ϵ
S
^
(
h
)
−
ϵ
(
h
)
∣
>
γ
)
<
2
k
e
x
p
(
−
2
γ
2
m
)
P(\exists h \in H, |\hat{\epsilon_S}(h) - \epsilon(h)| > \gamma ) < 2kexp(-2\gamma^2m)
P(∃h∈H,∣ϵS^(h)−ϵ(h)∣>γ)<2kexp(−2γ2m)至此,我们便回答了开始时提出的第一个问题。上述不等式意味着,当样本量足够大时,对于整个假设空间,经验误差都会依概率趋近于泛化误差,这就给我们利用最小化经验误差(ERM)来选择模型提供了理论依据,因为在样本量充足的情况下,经验误差确实可以来估计泛化误差,这种估计具有相合性,并且不只只针对特定的一个假设,对于一个有限假设的假设空间而言,整个假设空间也是具有这种相合性的。
接下来我们需要解决第二个问题,也就是与泛化误差有关的量化关系,具体地,问题可以被阐述为:
- 在有m个样本的训练集中,假设空间的假设有k个,我们能以 1 − δ 1-\delta 1−δ的概率保证的泛化误差和经验误差的差距上限是多少?
- 假设空间有k个假设,我们想要以 1 − δ 1-\delta 1−δ的概率保证泛化误差和经验误差的差距上限为 γ \gamma γ,那么至少需要多少样本?这个问题也称为样本复杂度。
对于第一个问题,我们利用上述式子,有
δ
>
2
k
e
x
p
(
−
2
γ
2
m
)
\delta > 2kexp(-2\gamma^2m)
δ>2kexp(−2γ2m)反解可以保证的差距上限
γ
\gamma
γ为:
γ
<
1
2
m
log
2
k
δ
\gamma < \sqrt{\frac{1}{2m}\log{\frac{2k}{\delta}}}
γ<2m1logδ2k对于第二个问题,我们同样可以反解出需要的样本数为:
m
>
1
2
γ
2
log
2
k
δ
m > \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}}
m>2γ21logδ2k从这里可以看出,假设空间的可能选择
k
k
k越多,需要的样本数也就越多,但是其是对数增长的(logarithmic)。
最后,我们需要回答第三个问题,假设我们通过ERM选择出来的假设为
h
^
\hat{h}
h^,潜在的泛化误差最小的假设为记为
h
∗
h^*
h∗。那么,根据上述的不等式,在
1
−
δ
1-\delta
1−δ的概率保证下,有
ϵ
(
h
^
)
<
ϵ
^
(
h
^
)
+
γ
<
ϵ
^
(
h
∗
)
+
γ
<
ϵ
(
h
∗
)
+
2
γ
\begin{aligned} \epsilon(\hat{h}) &< \hat{\epsilon}(\hat{h}) + \gamma \\ &< \hat{\epsilon}(h^*) + \gamma \\ &< \epsilon(h^*) + 2\gamma \\ \end{aligned}
ϵ(h^)<ϵ^(h^)+γ<ϵ^(h∗)+γ<ϵ(h∗)+2γ其中,
γ
<
1
2
m
log
2
k
δ
\gamma < \sqrt{\frac{1}{2m}\log{\frac{2k}{\delta}}}
γ<2m1logδ2k
上述表明,我们通过ERM选出来的假设
h
^
\hat{h}
h^,在
1
−
δ
1-\delta
1−δ的概率保证下,
h
^
\hat{h}
h^的泛化误差比起客观上最好的假设
h
h
h,最多不会超过
2
γ
2\gamma
2γ的差距。这从理论上保证我们利用ERM来选择假设
h
^
\hat{h}
h^的合理性。