前言
注意事项:
这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。 本文基本翻译自《Foundation of Machine Learning》的2.2节。
正文
假设集有限且满足一致性假设下的 PAC 保证
有某些学习任务中,算法总是可以保证其返回的假设
h S
在训练集
S
下误差为0,我们称假设 h S 一致 ( consistent ),称这种问题符合一致性假设。在前一篇文章中我们提到过样本复杂度这个概念,它指的是学习算法要得到近似解所需的样本数。在这一部分中,我们为符合一致性假设且假设集的基数
| H |
有限的学习问题提出一个通用的样本复杂度界限 ( sample complexity bound ),或称为泛化界 ( generalization bound )。由于我们只考虑一致的假设,我们进一步假定目标 concept
c
属于 H 。
定理 2.1 learning bound —— 有限的
H
,一致的情况下
设 H 为一个由有限个从
X
映射到
Y
的函数构成的集合。 设
A
看作一个能从任意目标 concept
c ∈ H
和任意服从独立同分布的样本集
S
中学习到至少一个一致假设 h S : R ^ ( h S ) = 0 的算法。那么对于任意的
ϵ , δ > 0
,如果有
m ≥ 1 ϵ ( log | H | + log 1 δ ) . (2.8)
不等式
P r S ∼ D m [ R ( h S ) ≤ ϵ ] ≥ 1 − δ
成立。
( 2.8 )
得到的是样本复杂度界限,它与下面的泛化界是等同的:对于任意
ϵ , δ > 0
,下式至少有
1 − δ
的概率成立:
R ( h S ) ≤ 1 m ( log | H | + log 1 δ ) . (2.9)
证明 :固定
ϵ
。我们不知道哪一个一致假设
h S ∈ H
会被算法
A
选中,这取决于训练样本
S
。因此,我们需要给出一个对所有一致假设都适用的界限,这样这个界限就必然适用于
h S 。于是,我们求出假设
h ∈ H
一致并且泛化误差大于
ϵ
的概率界限 (
我的理解 :因为我们不知道哪一个假设集会被选中,所以只能希望所有一致的假设的泛化误差都小于等于
ϵ
,换句话说,只要存在一个一致且泛化误差大于
ϵ
的假设,我们就认为目标 concept 不能通过
H
PAC 学习,下面通过求解出现这样一个假设的概率上界,又因为我们已经假定了
H 中起码有一个假设是一致的,最后反过来可以得到所有一致假设泛化误差都小于等于
ϵ
的概率下界):
= ≤ ≤ P r [ ∃ h ∈ H : R ^ ( h ) = 0 ∧ R ( h ) > ϵ ] P r [ ( h 1 ∈ H , R ^ ( h 1 ) = 0 ∧ R ( h 1 ) > ϵ ) ∨ ( h 2 ∈ H , R ^ ( h 2 ) = 0 ∧ R ( h 2 ) > ϵ ) ∨ ⋯ ] ∑ h ∈ H P r [ R ^ ( h ) = 0 ∧ R ( h ) > ϵ ] (union bound) ∑ h ∈ H P r [ R ^ ( h ) = 0 | R ( h ) < ϵ ] . (definition of conditional probability)
对于任意泛化误差大于
ϵ
的假设
h ∈ H
,
h
在样本集
S 上误差为0的概率的上界为:
P r [ R ^ ( h ) = 0 | R ( h ) > ϵ ] ≤ ( 1 − ϵ ) m .
前面的不等式有:
P r [ ∃ h ∈ H : R ^ ( h ) ∧ R ( h ) > ϵ ] ≤ | H | ( 1 − ϵ ) m .
进一步对右式进行放大,因为对于任意的
x ≥ 0
有
1 − x ≤ e − x
,则上式进一步化成:
P r [ ∃ h ∈ H : R ^ ( h ) ∧ R ( h ) > ϵ ] ≤ | H | e − m ϵ .
故只要
δ ≥ | H | e − m ϵ
成立,就有
P r [ ∃ h ∈ H : R ^ ( h ) ∧ R ( h ) > ϵ ] ≤ δ
上式意味着存在一个一致且泛化误差大于
ϵ
的概率是小于
δ
的,那么我们反过来可以认为不存在这种假设的概率是大于等于
1 − δ
的。也就是说只要算法
A
返回的是一个一致假设,我们就能保证它的泛化误差小于
ϵ
的概率大于
δ
。
我们可以把
δ ≥ | H | e − m ϵ
化成
m ≥ 1 ϵ ( log | H | + log 1 δ ) .
这样就证明了样本复杂度界限。只要对上式进行简单的转化,我们同样能得到泛化界的证明。证毕。
这个定理说明,当假设集
H
大小有限时,任何一个一致的算法必然PAC可学习,因为 ( 2.8 ) 给出的样本复杂度与
1 / ϵ
和
1 / δ
的一个多项式相关。
( 2.9 )
说明了,一致假设的泛化误差是被限制在一个随样本量
m
增大而减少的数值之下的。这与我们对学习算法的经验是一致的:带标签的训练样本越多,学习算法效果越好。这个定理所保证的 O ( 1 / m ) 的下降率其实已经非常优秀了。
为了得到一致的假设,我们要付出的代价是需要更大的假设集,以使得假设集包含目标 concept。显然,
( 2.9 )
规定的上限是随着
| H |
上升而上升的。但好事是这种上升只是对数级的。如果我们把
log | H |
这一项转换成
log 2 | H |
——他们只有一个常数因子的差别,就能把这项理解为表示
H
所需的二进制位数。因此该定理所提供的泛化保证是受位数 l o g 2 H 和样本量
m
<script type="math/tex" id="MathJax-Element-67">m</script> 控制的。