这一章主要是学习的理论。首先我们来关注这章主要研究的问题:
1.我们在实践中针对训练集有训练误差,针对测试集有测试误差,而我们显然更关心的是测试误差。但是实际算法通常都是由训练集和模型结合,那么我们如何针对训练集的好坏来体现出测试误差的信息呢?这是我们研究的第一个问题
2.是否存在某些条件,我们能否在这些条件下证明某些学习算法能够良好工作?
1.符号定义
写在前面,这里这把各种符号定义,如果在后文遇到对符号有问题的,可以在这一节寻找相应的含义:
H
=
H=
H={
h
1
,
h
2
.
.
.
h
k
h_{1},h_{2}...h_{k}
h1,h2...hk},H为假设类的集合,h为一个0-1的映射函数
h
^
\widehat{h}
h
表示根据ERM选择的假设,即具有最小训练误差的假设,不可能有哪个假设的训练误差比它更小。
h
∗
h^*
h∗表示最好的假设,即具有最小测试误差的假设,不可能有哪个假设的测试误差比它更小。
ε
^
(
h
)
\widehat{\varepsilon }(h)
ε
(h)表示用h函数分类错误的训练样本占总样本比(也被称为经验风险),
ε
^
(
h
∗
)
\widehat{\varepsilon }(h^*)
ε
(h∗)表示用
h
∗
h^*
h∗函数分类错误的训练样本占总样本比,
ε
^
(
h
^
)
\widehat{\varepsilon }(\widehat{h })
ε
(h
)表示用
h
^
\widehat{h }
h
函数分类错误的训练样本占总样本比。
ε
(
h
)
\varepsilon(h)
ε(h)表示用h函数对测试样本的分类错误概率,
ε
(
h
∗
)
\varepsilon (h^*)
ε(h∗)表示用
h
∗
h^*
h∗函数对测试样本的分类错误概率,
ε
(
h
^
)
\varepsilon(\widehat{h })
ε(h
)表示用
h
^
\widehat{h }
h
函数对测试样本的分类错误概率。
2.预备知识
在解决我们的两个问题时,需要先了解下面两个原理:
1.联合界原理:设 A1, A2, …, Ak 是 K个不同事件(但不一定互相独立),则有: P ( A 1 ∪ A 2 ∪ . . . A k ) ≤ P ( A 1 + A 2 + . . . A k ) P(A_{1}\cup A_{2}\cup... A_{k})\leq P(A_{1}+A_{2}+...A_{k}) P(A1∪A2∪...Ak)≤P(A1+A2+...Ak) 建议画图理解。
2.Hoeffding 不等式 :设 Z 1 , . . . , Z m Z_1, ... , Z_m Z1,...,Zm是 m 个独立的并且共同遵循均值为 ϕ \phi ϕ的伯努利分布的随机变量,即 P ( Z i = 1 ) = ϕ P(Z_{i}=1)=\phi P(Zi=1)=ϕ,定义 ϕ ^ = 1 m ∑ i = 1 m Z i \widehat{\phi }=\frac{1}{m}\sum_{i=1}^{m}Z_{i} ϕ =m1∑i=1mZi,则有:
其次了解一下两个概念:
3.经验风险——训练误差 ε ^ ( h ) = 1 m ∑ i = 1 m 1 \widehat{\varepsilon }(h)=\frac{1}{m}\sum_{i=1}^{m}1 ε (h)=m1∑i=1m1{ h ( x ( i ) ) ≠ y ( x ( i ) h(x^{(i)})\neq y(x^{(i)} h(x(i))̸=y(x(i)}
4.测试误差
3. 有限个假设(finite H)的情况
我们希望保证根据经验风险最小化找出来的假设
h
^
\widehat{h }
h
的测试误差也很好。因此我们制定了一个策略:
1.证明
ε
^
(
h
)
\widehat{\varepsilon }(h)
ε
(h)是
ε
(
h
)
\varepsilon(h)
ε(h)一个可靠性估计(可用后面的一致收敛解释)
2.证明ERM选出的假设
h
^
\widehat{h }
h
的一般误差存在上限。
根据我们第二节介绍的第二个引理,我们可以类推出以下测试误差与训练误差满足:
P
(
∣
ε
(
h
i
)
−
ε
^
(
h
i
)
>
γ
∣
)
≤
2
e
x
p
(
−
2
γ
2
m
)
P(|\varepsilon (h_{i})-\widehat{\varepsilon} (h_{i})> \gamma |)\leq 2exp(-2\gamma ^{2}m)
P(∣ε(hi)−ε
(hi)>γ∣)≤2exp(−2γ2m)
这个式子表明了,对于一个特定的假设函数,当训练样本m很大时,训练误差和测试误差有很高的概率接近。那么问题是,我们不仅要针对某一个假设函数使两个误差接近,而是希望对于所有的假设
h
∈
H
h\in H
h∈H,训练误差和测试误差有很高的概率接近。
这里我们巧用第一个引理,为了能用到第一个定理,我们先假设Ai事件为
ε
(
h
i
)
−
ε
^
(
h
i
)
>
γ
\varepsilon (h_{i})-\widehat{\varepsilon}(h_{i})> \gamma
ε(hi)−ε
(hi)>γ,如果只存在一个事件成立,则:
如果等式两边都用 1 来减去原始值,则不等关系改变为:
很巧妙对不对,用两边都用1减,这样等式右边就有对于所有的假设,在至少
1
−
2
k
e
x
p
(
−
2
γ
2
m
)
1-2kexp(-2\gamma ^{2}m)
1−2kexp(−2γ2m)的概率下,测试误差与训练误差的差距在γ以内,我们称这种情况为一致收敛,满足一致收敛则完成第一个策略的条件。说明了对于任意ϵ,只要样本数量m足够大,
∣
E
(
h
)
−
E
(
h
)
∣
≤
ϵ
|E(h)−E^(h)|≤ϵ
∣E(h)−E(h)∣≤ϵ发生的可能性就非常大,此时我们可以用经验误差近似泛化误差。
在上面的讨论中,我们涉及到的是针对某些 m 和 γ 的特定值,给定一个概率约束。这里我们感兴趣的变量有三个:m, γ, 以及误差的概率
δ
=
2
k
e
x
p
(
−
2
γ
2
m
)
\delta=2kexp(-2\gamma ^{2}m)
δ=2kexp(−2γ2m);我们可以将其中的任意一个用另外两个来进行约束。
那么我们可以提出第一个约束:给定 γ γ γ和 δ \delta δ,训练集m至少有多大才能保证至少在 1 − δ 1-\delta 1−δ的概率下 ∣ ε ( h i ) − ε ^ ( h i ) ∣ ≤ γ |\varepsilon (h_{i})-\widehat{\varepsilon}(h_{i})|\leq \gamma ∣ε(hi)−ε (hi)∣≤γ,即是一个可靠性估计:
根据
δ
=
2
k
e
x
p
(
−
2
γ
2
m
)
\delta=2kexp(-2\gamma ^{2}m)
δ=2kexp(−2γ2m),可以得到:
m在这里称为样本复杂度界,即我们达到一个特定的误差界需要的样本数量,可以保证
ε
^
(
h
)
\widehat{\varepsilon }(h)
ε
(h)是
ε
(
h
)
\varepsilon(h)
ε(h)一个可靠性估计。我们可以发现m与logk成正比,说明假设类增加很多的 话,样本数量也不会有太大提高,因为log函数增长速度很慢。
接下来是第二个约束:给定m和 δ \delta δ固定,在至少 1 − δ 1-\delta 1−δ概率下,保证对所有的假设成立,求解 γ γ γ,由于 δ \delta δ固定,我们可以得出:
我们可以将上式变形,注意一下看不懂的符号回到第一节去找相应的含义:
注意第一次变形是由
∣
ε
(
h
i
)
−
ε
^
(
h
i
)
∣
≤
γ
|\varepsilon (h_{i})-\widehat{\varepsilon}(h_{i})|\leq \gamma
∣ε(hi)−ε
(hi)∣≤γ得到的,第二行是由
ε
^
(
h
)
≤
ε
^
(
h
∗
)
\widehat{\varepsilon }(h) \leq \widehat{\varepsilon }(h^*)
ε
(h)≤ε
(h∗)得到的(因为任何训练误差都没有比通过ERM得到的更小),第三次变形还是由
∣
ε
(
h
i
)
−
ε
^
(
h
i
)
∣
≤
γ
|\varepsilon (h_{i})-\widehat{\varepsilon}(h_{i})|\leq \gamma
∣ε(hi)−ε
(hi)∣≤γ得到的。这个结果再变形一下就是:
这个式子就证明了我们的第二个策略,假设
h
^
\widehat{h }
h
的一般误差最多比最小的一般误差多2
γ
γ
γ(细心品读),即ERM选出的假设
h
^
\widehat{h }
h
的一般误差存在上限。
关于最后的这个不等式还有一些说法,就是该式子可以很好的量化偏差方差权衡,右边第一项对应的学习的偏差,第二项对应的学习的方差(对数据拟合的有多好)具体说,有一个假设类H可能包含一个线性回归,或仅有线性特征的逻辑回归的类,当换成了更多特征的新类H’,比如变成2次,更复杂的类,即
H
⊆
H
′
H\subseteq H'
H⊆H′,那么右式第一项拟合的更好所以偏差下降,但复杂度更高则第二项上升。
最后介绍一个推论: 令假设类含有k个假设,|H|=k,给定γ和δ,为了保证:至少在1-δ的概率下,满足条件:
即给出了为了满足误差率要求,所需的训练样本的数目的界。
4. 无限假设类的情况
我们已经在有限假设类中证明了很多有用的结论,例如为满足误差率所需的样本数目的界的范围,那推广到无限维是否一样成立呢?
首先我们知道我们设置的假设类集合H以d个实数为参数,例如使用逻辑回归,解决包含n个特征的问题,d应该为n+1,所以逻辑回归会找到一个线性决策边界,以n+1个实数为参数。在计算机中用双精度浮点数64bit表示一个实数,那么此时用64d个位来表示参数,具有64d个状态,为了满足这个条件,m符合:
我们可以大致发现训练样本的数目大致和假设类的参数数目呈线性关系。这个论点并不是充分的,只是用来加深直观的理解。
(1)分散的定义
给定d个样本的集合 S = S= S={ x ( 1 ) , . . . , x ( d ) x^{(1)},...,x^{(d)} x(1),...,x(d)},假设类H可以分散S,那么对于S的任意一种标记方式都可以从H中找到一个假设h能够对S的d个样本进行完美预测。
- H={二维上的线性分类器}
- H={三维上的线性分类器}
(2)VC维
给定一个假设类H,定义VC维(Vapnik-Chervonenkis dimension),记作VC(H),表示能够被H分散最大集合的大小。
如果一个假设类可以分散任意大的集合,那么它的VC维维无穷大。对于任意维度的n维线性分类器构成的假设类的VC维=n+1,举个例子:H是所有二维线性分类器构成的假设类,VC(H)=3。即使也有几个特例例外,不过这并不影响整体。因为VC维是只要存在就行。
定理:给定一个假设类H,令VC(H)=d,至少在1-δ的概率下,对于任意h∈H有如下结论:
因此,至少在1-δ的概率下,以下结论也成立:
第一个结论说明测试误差与训练误差之间的差异存在上界,由不等式右边的式子O()限定。第二个结论说明,若测试误差与训练误差相差不大的情况下,那么选择的假设的测试误差与最好的测试误差之间的差异最多是O()。
Corollary(推论):为了保证对于所有的h∈H有 ∣ ε ( h i ) − ε ^ ( h i ) ∣ ≤ γ |\varepsilon (h_{i})-\widehat{\varepsilon}(h_{i})|\leq \gamma ∣ε(hi)−ε (hi)∣≤γ,也就是,
至少在1-δ的概率下,要满足: m = O r , δ ( d ) m=O_{r,\delta}(d) m=Or,δ(d).
d为模型的参数,也就是为了保证测试误差与训练误差的差异足够小,假设类的VC维需要与m的阶相同。对于EMR来说,需要训练的样本数目大概和假设类的VC维呈线性关系,样本复杂度的上界由VC维给定,最坏的情况下,样本复杂度的上下界均由VC维确定。对于大多数合理的假设类,VC维总是与模型的参数成正比。而事实上,样本数目与模型参数数量也成线性关系。
例如在SVM中,核函数将特征映射到无限维的特征空间,看似VC维度是无穷大的,因为它是n+1,而n为无穷大。
事实证明:具有较大间隔的线性分类器假设类都有比较低的VC维。若 ∣ ∣ x ( i ) ∣ ∣ 2 ≤ R ||x^{(i)}||_2 \leq R ∣∣x(i)∣∣2≤R,则 V C ( H ) ≤ [ R 2 4 γ 2 ] + 1 VC(H) \leq [\frac{R^2}{4\gamma ^2}]+1 VC(H)≤[4γ2R2]+1,其中R为假设这些点的半径。
该式子证明,即使数据点在无限维中,但是只要考虑含较大间隔线性分类器的假设类,则VC维是有上界的,且上界并不依赖于x的维度。SVM会自动找到一个具有较小VC维的假设类,不会出现过拟合。
最后,结合上述内容解释ERM与之前学习过的学习算法之间的联系。
解释一下:我们期望的最理想的分类器是一个指示函数(图中的阶梯函数),也就是我们得到的ERM,但由于这个阶梯函数不是一个凸函数,事实证明线性分类器使训练误差最小是一个NP难问题。逻辑回归与支持向量机都可以看作是这个问题(ERM)的凸性近似。
逻辑回归一般采用极大似然性,如果加入负号就可以得到图中的曲线,实际上是近似地在最小化训练误差,它是ERM的一种近似。同时,支持向量机也可以看作是ERM的一种近似,不同的是它尝试用两段不同的线性函数近似,看似是铰链的形状。