Foundation of Machine Learning 笔记第二部分——Guarantees for Finite Hypothesis Sets in Consistent Case

前言

注意事项:

  1. 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
  2. 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
  3. 本文基本翻译自《Foundation of Machine Learning》的2.2节。

正文

假设集有限且满足一致性假设下的 PAC 保证

有某些学习任务中,算法总是可以保证其返回的假设 hS 在训练集 S 下误差为0,我们称假设 hS 一致 ( consistent ),称这种问题符合一致性假设。在前一篇文章中我们提到过样本复杂度这个概念,它指的是学习算法要得到近似解所需的样本数。在这一部分中,我们为符合一致性假设且假设集的基数 |H| 有限的学习问题提出一个通用的样本复杂度界限 ( sample complexity bound ),或称为泛化界 ( generalization bound )。由于我们只考虑一致的假设,我们进一步假定目标 concept c 属于 H

定理 2.1 learning bound —— 有限的 H ,一致的情况下

H 为一个由有限个从 X 映射到 Y 的函数构成的集合。 设 A 看作一个能从任意目标 concept cH 和任意服从独立同分布的样本集 S 中学习到至少一个一致假设 hS:R^(hS)=0 的算法。那么对于任意的 ϵ,δ>0 ,如果有

m1ϵ(log|H|+log1δ).(2.8)
不等式 PrSDm[R(hS)ϵ]1δ 成立。 (2.8) 得到的是样本复杂度界限,它与下面的泛化界是等同的:对于任意 ϵ,δ>0 ,下式至少有 1δ 的概率成立:
R(hS)1m(log|H|+log1δ).(2.9)

证明:固定 ϵ 。我们不知道哪一个一致假设 hSH 会被算法 A 选中,这取决于训练样本 S 。因此,我们需要给出一个对所有一致假设都适用的界限,这样这个界限就必然适用于 hS。于是,我们求出假设 hH 一致并且泛化误差大于 ϵ 的概率界限 (我的理解:因为我们不知道哪一个假设集会被选中,所以只能希望所有一致的假设的泛化误差都小于等于 ϵ ,换句话说,只要存在一个一致且泛化误差大于 ϵ 的假设,我们就认为目标 concept 不能通过 H PAC 学习,下面通过求解出现这样一个假设的概率上界,又因为我们已经假定了 H 中起码有一个假设是一致的,最后反过来可以得到所有一致假设泛化误差都小于等于 ϵ 的概率下界):
=Pr[hH:R^(h)=0R(h)>ϵ]Pr[(h1H,R^(h1)=0R(h1)>ϵ)(h2H,R^(h2)=0R(h2)>ϵ)]hHPr[R^(h)=0R(h)>ϵ](union bound)hHPr[R^(h)=0|R(h)<ϵ].(definition of conditional probability)

对于任意泛化误差大于 ϵ 的假设 hH h 在样本集 S 上误差为0的概率的上界为:
Pr[R^(h)=0|R(h)>ϵ](1ϵ)m.
前面的不等式有:
Pr[hH:R^(h)R(h)>ϵ]|H|(1ϵ)m.
进一步对右式进行放大,因为对于任意的 x0 1xex ,则上式进一步化成:
Pr[hH:R^(h)R(h)>ϵ]|H|emϵ.
故只要 δ|H|emϵ 成立,就有
Pr[hH:R^(h)R(h)>ϵ]δ
上式意味着存在一个一致且泛化误差大于 ϵ 的概率是小于 δ 的,那么我们反过来可以认为不存在这种假设的概率是大于等于 1δ 的。也就是说只要算法 A 返回的是一个一致假设,我们就能保证它的泛化误差小于 ϵ 的概率大于 δ

我们可以把 δ|H|emϵ 化成

m1ϵ(log|H|+log1δ).
这样就证明了样本复杂度界限。只要对上式进行简单的转化,我们同样能得到泛化界的证明。证毕。

这个定理说明,当假设集 H 大小有限时,任何一个一致的算法必然PAC可学习,因为 (2.8) 给出的样本复杂度与 1/ϵ 1/δ 的一个多项式相关。 (2.9) 说明了,一致假设的泛化误差是被限制在一个随样本量 m 增大而减少的数值之下的。这与我们对学习算法的经验是一致的:带标签的训练样本越多,学习算法效果越好。这个定理所保证的 O(1/m) 的下降率其实已经非常优秀了。

为了得到一致的假设,我们要付出的代价是需要更大的假设集,以使得假设集包含目标 concept。显然, (2.9) 规定的上限是随着 |H| 上升而上升的。但好事是这种上升只是对数级的。如果我们把 log|H| 这一项转换成 log2|H| ——他们只有一个常数因子的差别,就能把这项理解为表示 H 所需的二进制位数。因此该定理所提供的泛化保证是受位数 log2H 和样本量 m <script type="math/tex" id="MathJax-Element-67">m</script> 控制的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值