第7章 计算学习理论
7.1 可能近似正确(PAC)假设
7.1.1 假设的错误率
真实错误率(True Error): 假设
h
的关于目标概念
样本错误率(Sample Error):样例集合 S 中被
训练错误率(Training Error): 训练样例中被 h 误分类的样例所占比例。
7.1.2 PAC可学习性
非正式地讲:考虑某一可能的目标概念类别
精确定义如下:考虑定义在长度为
n
的实例集合
需要说明的是:
1. 如果
2. 定义隐式地假定了学习器的假设空间包含一个假设,它与
基于PAC学习模型的结论,对于领会不同学习问题的相对复杂度以及泛化精度随着训练样例而提高的比率十分有益。
7.2 有限假设空间的样本复杂度
7.2.1 几个概念
- 样本复杂度(Sample Complexity):随着问题规模的增长所带来的所需训练样例的增长称为该学习问题的样本复杂度。
- 一致学习器(Consistent Learner):一个学习器是一致的,当它只要在可能时都输出能完美拟合训练数据的假设。
变型空间的重要意义在于,每个一致学习器都输出一个属于变型空间的假设,而不论有怎样的实例空间 X 、假设空间H 或训练数据 D 。 ϵ -详尽( ϵ -Exhausted):考虑一假设空间 H ,目标概念c ,实例分布 D 以及 c 的一组训练样例D 。当 VSH,D 中每个假设 h 关于c 和 D 错误率小于 ϵ 时,变型空间被称为关于 c 和D 是 ϵ -详尽的:(∀h∈VSH,D)errorD(h)≤ϵ
ϵ -详尽的变型空间表示与训练样例一致的所有假设的真实错误率恰好都小于 ϵ 。
7.2.2 变型空间的 ϵ -详尽化( ϵ -Exhausting the Version Space)定理
- 定理及其证明
定理:若假设空间 H 为有限,且D 为目标概念 c 的m≥1 个独立随机抽取的样例序列,那么对于任意 0≤ϵ≤1 ,变型空间 VSH,D 不是 ϵ -详尽(关于 c )的概率小于或等于|H|e−ϵm(7-1)
证明:
- 令
h1,h2,…,hk
为
H
中关于
c 的真实错误率大于 ϵ 的所有假设,则当且仅当 k 个假设中至少有一个恰好与所有m 个独立随机抽取样例一致时,不能使变型空间 ϵ -详尽化; - 对于任何一个真实错误率大于
ϵ
的假设, 它与一个随机抽取的样例一致的概率最多为
(1−ϵ)
。因此,该假设与
m
个独立抽取的样例都一致的概率最多为
(1−ϵ)m ; - 由于已知有
k
个假设错误率大于
ϵ ,那么至少有一个假设与所有 m 个训练样例都一致的概率最多为k(1−ϵ)m ; -
k≤|H|
由通用不等式:当
0≤ϵ≤1
则
(1−ϵ)≤e−ϵ
,可得
k(1−ϵ)m≤|H|(1−ϵ)m≤|H|e−ϵm证毕。
- 令
h1,h2,…,hk
为
H
中关于
- 推论
由上述定理,令|H|e−ϵm≤δ,可得m≥1ϵ(ln|H|+ln1δ)(7-2)
该不等式提过了训练样例数目的一般边界,该数目的样例足以在所期望的值 δ 和 ϵ 程度下,使任何一致学习器成功地学习到 H 中任意目标概念。训练样例的数目m 足以保证任意一致假设是可能(可能性为 1−δ )近似(错误率为 ϵ )正确的。训练样例的数目 m 随着1ϵ 线性增长, 并随着 1δ 和假设空间 H 的规模对数增长。 - 注意
在(7-1)式中,对于足够大的假设空间,该边界很容易超过1。该式不能保证详尽化变型空间的概率在区间[0,1] 内。因此,该边界可能是过高的估计。由此也导致(7-2)的不等式可能过高地估计了所需训练样例的数量。
7.2.3 不可知学习和不一致假设
- 不可知学习器
如果学习器不假定目标概念可在 H 中表示,而只简单地寻找具有最小训练错误率的假设,这样的学习器称为不可知学习器,因为它不预先认定C⊆H 。 - Hoeffding边界
当训练错误率 errorD 在包含 m 个随机抽取样例的集合D 上测量时,则:Pr[errorD(h)>errorD(h)]≤e−2mϵ2
Hoeffding边界刻画的是某件事的真实概率及其 m 个独立试验中观察到的频率之间的差异。 - 由Hoeffding边界得到的结论
为保证学习器寻找到的最佳假设的错误率有以上边界,必须考虑这|H| 个假设中任意一个有较大错误率的概率:δ=Pr[(∃h∈H)(errorD(h)>errorD(h))]≤|H|e−2mϵ2,由此可知:m≥12ϵ2(ln|H|+ln1δ)(7-3)
这是(7-2)式的一般化情形,适用于当最佳假设可能有非零训练错误率时,学习器仍能选择到最佳假设 h∈H 的情形。
7.3 无限假设空间的样本复杂度
7.3.1 VC维
- 打散(Shatter):一个实例集
S
被假设空间
H 打散,当且仅当对 S 的每个划分,存在H 中的某假设与此划分一致。
- H 的这种打散实例集合的能力是其表示这些实例上定义的目标概念的能力的度量。如果一个实例集合没有被假设空间打散,那么必然存在某概念(划分)可被定义在实例集上,但不能由假设空间表示。
- 打散一个实例集合的能力与假设空间的归纳偏置紧密相关。无偏的假设空间是能够表示定义在实例空间上每个可能概念(划分)的假设空间,即一个无偏假设空间能够打算实例空间。
- VC维:定义在实例空间
X 上的假设空间 H 的Vapnik-Chervonenkis维,或VC(H) ,是可被 H 打散的X 的最大有限子集的大小。 如果 X 的任意有限大的子集可被H 打散,则 VC(H)≡∞ 。
- 对于任意有限的
H
,
VC(H)≤log2|H| 。
假定 VC(H)=d ,那么 H 需要2d 个不同的假设来打散 d 个实例。因此2d≤|H| ,所以有 VC(H)=d≤log2|H| 。 - 在
r
维空间中,线性决策面的VC维为
r+1 。
- 对于任意有限的
H
,
7.3.2 样本复杂度和VC维
- 上界:对于(7-2)式,使用VC维作为
H
复杂度的度量,则可以推出:
m≥1ϵ(4log22δ+8VC(H)log213ϵ)(7-4)
对于任意希望的 ϵ 和 δ ,(7-4)式对足以PAC学习到 C 中任意目标概念所需的训练样例给出了一个上界。 - 下界:考虑任意概念类
C ,且 VC(C)≥2 ,任意学习器 L ,以及任意0<ϵ<18 , 0<δ<1100 。存在一个分布 D 以及 C 中一个目标概念, 当L 观察到的样例数目小于下式时:max[1ϵlog1δ,VC(C)−132ϵ](7-5), L 将以至少δ 的概率输出一个假设 h ,使得errorD>ϵ 。
(7-5)式说明,若训练样例的数目太少,那么没有学习器能够以PAC模型学习到任意非平凡的 C <script type="math/tex" id="MathJax-Element-322">C</script> 中的每个目标概念。该式提供了成功学习所必要的训练样例的数目的下界,它是对(7-4)式给出的保证充足的数量的上界的一个补充。