Chapter 7 计算学习理论

最新推荐文章于 2019-07-31 14:56:00 发布

NeutronT

最新推荐文章于 2019-07-31 14:56:00 发布

阅读量936

点赞数

分类专栏：《MachineLearning》学习笔记

本文链接：https://blog.csdn.net/NeutronT/article/details/78069380

版权

《MachineLearning》学习笔记专栏收录该内容

8 篇文章 2 订阅

订阅专栏

第7章计算学习理论

7.1 可能近似正确（PAC）假设

7.1.1 假设的错误率

真实错误率（True Error）：假设 $h$ 的关于目标概念 $c$ 和分布 $\mathcal{D}$ 的真实错误率为 $h$ 误分类根据 $\mathcal{D}$ 随机抽取的实例的概率：

e r r o r D (h) \equiv P r x \in D [c (x) \neq h (x)]

$error_{\mathcal{D}}(h) \equiv \mathop{Pr}_{x \in \mathcal{D}}[c(x) \neq h(x)]$
样本错误率（Sample Error）：样例集合

S $S$ 中被

h $h$ 误分类的样例所占比例。
训练错误率（Training Error）：训练样例中被

h $h$ 误分类的样例所占比例。

7.1.2 PAC可学习性

非正式地讲：考虑某一可能的目标概念类别 $C$ 和使用假设空间 $H$ 的学习器 $L$ 。对 $C$ 中任意目标概念 $c$ ，若在观察到合理数目的训练样例并执行了合理的计算量后， $L$ 以概率 $(1-\delta)$ 输出一个 $error_{\mathcal{D}}(h)\leq \epsilon$ 的假设 $h$ ，则称概念类别 $C$ 是可以被使用 $H$ 的 $L$ 所PAC学习的。
精确定义如下：考虑定义在长度为 $n$ 的实例集合 $X$ 上的一概念类别 $C$ ，学习器 $L$ 使用假设空间 $H$ 。当对所有 $c \in C$ ， $X$ 上的分布 $\mathcal{D}$ ， $\epsilon$ 满足 $0 <\epsilon <\frac{1}{2}$ 以及 $\delta$ 满足 $0 <\delta <\frac{1}{2}$ 时，学习器 $L$ 将以至少 $(1-\delta)$ 的概率输出一假设 $h \in H$ ，使得 $error_{\mathcal{D}}(h)\leq \epsilon$ ，这时称 $C$ 是使用 $H$ 的 $L$ 可PAC学习的。学习所用的时间为 $\frac{1}{\epsilon}$ 、 $\frac{1}{\delta}$ 、 $n$ 以及 $size(c)$ 的多项式函数。这里 $size(c)$ 表示当 $C$ 采用某种表示方法时， $C$ 中的概念 $c$ 的编码长度。
需要说明的是：
1. 如果 $L$ 对每个训练样例需要某最小处理时间，那么为了使 $c$ 是 $L$ 可PAC学习的， $L$ 必须从多项式数量的训练样例中进行学习；
2. 定义隐式地假定了学习器的假设空间包含一个假设，它与 $C$ 中每个目标概念可有任意小的误差。
基于PAC学习模型的结论，对于领会不同学习问题的相对复杂度以及泛化精度随着训练样例而提高的比率十分有益。

7.2 有限假设空间的样本复杂度

7.2.1 几个概念

样本复杂度（Sample Complexity）：随着问题规模的增长所带来的所需训练样例的增长称为该学习问题的样本复杂度。
一致学习器（Consistent Learner）：一个学习器是一致的，当它只要在可能时都输出能完美拟合训练数据的假设。
变型空间的重要意义在于，每个一致学习器都输出一个属于变型空间的假设，而不论有怎样的实例空间 $X$ 、假设空间 $H$ 或训练数据 $D$ 。
$\epsilon$ -详尽（ $\epsilon$ -Exhausted）：考虑一假设空间 $H$ ，目标概念 $c$ ，实例分布 $\mathcal{D}$ 以及 $c$ 的一组训练样例 $D$ 。当 $VS_{H,D}$ 中每个假设 $h$ 关于 $c$ 和 $\mathcal{D}$ 错误率小于 $\epsilon$ 时，变型空间被称为关于 $c$ 和 $\mathcal{D}$ 是 $\epsilon$ -详尽的： $(\forall h \in V S H, D) e r r o r D (h) \leq ϵ$ $(\forall h \in VS_{H,D})error_{\mathcal{D}}(h) \le \epsilon$
$\epsilon$ -详尽的变型空间表示与训练样例一致的所有假设的真实错误率恰好都小于 $\epsilon$ 。

7.2.2 变型空间的 $\epsilon$ -详尽化（ $\epsilon$ -Exhausting the Version Space）定理

定理及其证明
定理：若假设空间 H 为有限，且 D 为目标概念 c 的 m≥1 个独立随机抽取的样例序列，那么对于任意 0≤ϵ≤1 ，变型空间 VSH,D 不是 ϵ -详尽（关于 c ）的概率小于或等于
|H|e−ϵm(7-1)

证明：
- 令 $h_1,h_2,\dots,h_k$ 为 $H$ 中关于 $c$ 的真实错误率大于 $\epsilon$ 的所有假设，则当且仅当 $k$ 个假设中至少有一个恰好与所有 $m$ 个独立随机抽取样例一致时，不能使变型空间 $\epsilon$ -详尽化；
- 对于任何一个真实错误率大于 $\epsilon$ 的假设，它与一个随机抽取的样例一致的概率最多为 $(1-\epsilon)$ 。因此，该假设与 $m$ 个独立抽取的样例都一致的概率最多为 $(1-\epsilon)^m$ ；
- 由于已知有 $k$ 个假设错误率大于 $\epsilon$ ，那么至少有一个假设与所有 $m$ 个训练样例都一致的概率最多为 $k(1-\epsilon)^m$ ；
- $k \le |H|$ 由通用不等式：当 $0 \le \epsilon \le 1$ 则 $(1-\epsilon) \le e^{-\epsilon}$ ，可得 $k (1 - ϵ) m \leq | H | (1 - ϵ) m \leq | H | e - ϵ m$ $k(1-\epsilon)^m \le |H|(1-\epsilon)^m \le |H|e^{-\epsilon m}$ 证毕。
推论
由上述定理，令 $| H | e - ϵ m \leq δ$ $|H|e^{-\epsilon m} \le \delta$ ,可得 $m \geq 1 ϵ (ln | H | + ln 1 δ) (7-2)$ $m \ge \frac{1}{\epsilon}\left( \ln |H| + \ln \frac{1}{\delta} \right) \tag{7-2}$
该不等式提过了训练样例数目的一般边界，该数目的样例足以在所期望的值 $\delta$ 和 $\epsilon$ 程度下，使任何一致学习器成功地学习到 $H$ 中任意目标概念。训练样例的数目 $m$ 足以保证任意一致假设是可能(可能性为 $1-\delta$ )近似(错误率为 $\epsilon$ )正确的。训练样例的数目 $m$ 随着 $\frac{1}{\epsilon}$ 线性增长，并随着 $\frac{1}{\delta}$ 和假设空间 $H$ 的规模对数增长。
注意
在（7-1）式中，对于足够大的假设空间，该边界很容易超过1。该式不能保证详尽化变型空间的概率在区间 $[0,1]$ 内。因此，该边界可能是过高的估计。由此也导致（7-2）的不等式可能过高地估计了所需训练样例的数量。

7.2.3 不可知学习和不一致假设

不可知学习器
如果学习器不假定目标概念可在 $H$ 中表示，而只简单地寻找具有最小训练错误率的假设，这样的学习器称为不可知学习器，因为它不预先认定 $C \subseteq H$ 。
Hoeffding边界
当训练错误率 $error_{D}$ 在包含 $m$ 个随机抽取样例的集合 $D$ 上测量时，则： $P r [e r r o r D (h) > e r r o r D (h)] \leq e - 2 m ϵ 2$ $\mathop{Pr}\left[ error_{\mathcal{D}}(h) > error_{D}(h) \right] \le e^{-2m\epsilon^2}$
Hoeffding边界刻画的是某件事的真实概率及其 $m$ 个独立试验中观察到的频率之间的差异。
由Hoeffding边界得到的结论
为保证学习器寻找到的最佳假设的错误率有以上边界，必须考虑这 $|H|$ 个假设中任意一个有较大错误率的概率： $δ = P r [(\exists h \in H) (e r r o r D (h) > e r r o r D (h))] \leq | H | e - 2 m ϵ 2$ $\delta=\mathop{Pr}\left[(\exists h \in H)\left( error_{\mathcal{D}}(h) > error_{D}(h) \right) \right] \le |H|e^{-2m\epsilon^2}$ ，由此可知： $m \geq 1 2 ϵ 2 (ln | H | + ln 1 δ) (7-3)$ $m \ge \frac{1}{2\epsilon^2}\left( \ln |H| + \ln \frac{1}{\delta} \right) \tag{7-3}$
这是(7-2)式的一般化情形，适用于当最佳假设可能有非零训练错误率时，学习器仍能选择到最佳假设 $h \in H$ 的情形。

7.3 无限假设空间的样本复杂度

7.3.1 VC维

打散（Shatter）：一个实例集 S 被假设空间 H 打散，当且仅当对 S 的每个划分，存在 H 中的某假设与此划分一致。
- $H$ 的这种打散实例集合的能力是其表示这些实例上定义的目标概念的能力的度量。如果一个实例集合没有被假设空间打散，那么必然存在某概念（划分）可被定义在实例集上，但不能由假设空间表示。
- 打散一个实例集合的能力与假设空间的归纳偏置紧密相关。无偏的假设空间是能够表示定义在实例空间上每个可能概念（划分）的假设空间，即一个无偏假设空间能够打算实例空间。
VC维：定义在实例空间 X 上的假设空间 H 的Vapnik-Chervonenkis维，或 VC(H) ，是可被 H 打散的 X 的最大有限子集的大小。如果 X 的任意有限大的子集可被 H 打散，则 VC(H)≡∞ 。
- 对于任意有限的 $H$ ， $VC(H) \le \log_2|H|$ 。
  假定 $VC(H) = d$ ，那么 $H$ 需要 $2^d$ 个不同的假设来打散 $d$ 个实例。因此 $2^d \le |H|$ ，所以有 $VC(H)=d \le \log_2|H|$ 。
- 在 $r$ 维空间中，线性决策面的VC维为 $r+1$ 。

7.3.2 样本复杂度和VC维

上界：对于（7-2）式，使用VC维作为 $H$ 复杂度的度量，则可以推出： $m \geq 1 ϵ (4 log 2 2 δ + 8 V C (H) log 2 13 ϵ) (7-4)$ $m \ge \frac{1}{\epsilon}\left( 4\log_2\frac{2}{\delta}+8VC(H)\log_2\frac{13}{\epsilon}\right)\tag{7-4}$
对于任意希望的 $\epsilon$ 和 $\delta$ ,(7-4)式对足以PAC学习到 $C$ 中任意目标概念所需的训练样例给出了一个上界。
下界：考虑任意概念类 $C$ ，且 $VC(C) \ge 2$ ，任意学习器 $L$ ，以及任意 $0 < \epsilon < \frac{1}{8}$ ， $0 < \delta < \frac{1}{100}$ 。存在一个分布 $\mathcal{D}$ 以及 $C$ 中一个目标概念，当 $L$ 观察到的样例数目小于下式时： $max [1 ϵ log 1 δ, V C ( C ) - 1 32 ϵ] (7-5)$ $\max\left[ \frac{1}{\epsilon}\log\frac{1}{\delta},\frac{VC(C)-1}{32\epsilon} \right]\tag{7-5}$ ， $L$ 将以至少 $\delta$ 的概率输出一个假设 $h$ ，使得 $error_{\mathcal{D}} > \epsilon$ 。
（7-5）式说明，若训练样例的数目太少，那么没有学习器能够以PAC模型学习到任意非平凡的 C <script type="math/tex" id="MathJax-Element-322">C</script> 中的每个目标概念。该式提供了成功学习所必要的训练样例的数目的下界，它是对（7-4）式给出的保证充足的数量的上界的一个补充。