（《机器学习》完整版系列）第12章计算学习理论——12.3 有限假设空间可分情形（剔除“过拟合”需要足够多的样本）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129633205

当假设空间H是有限的时候，如果学习算法L的运行成本是遍历H的多项式时间，那么L是否为PAC学习算法取决于样本数m是否为多项式。在可分情况下，通过分析误差为0的假设集合H_D，可以推导出当m满足一定多项式关系时，存在有效解且泛化误差接近0。这表明有限且可分的假设空间H是PAC可学习的，且泛化误差随着样本数增加而收敛于0。

摘要由CSDN通过智能技术生成

当假设空间 $\mathcal{H}$ 是有限时，学习算法 $\mathfrak{L}$ 运行成本至多为遍历有限的 $\mathcal{H}$ ，当然是多项式的，那么，算法 $\mathfrak{L}$ 是否为PAC学习算法就看它所需要的样本数 $m$ 是否是多项式的了，我们分两种情况讨论 $m$ ：（本篇）有限假设空间可分情形和（下篇）有限假设空间不可分情形。
在有限假设空间且可分情形下，直观来看：最好在 $\mathcal{H}_D$ 中寻找需要的 $h$ 。而 $\mathcal{H}_D$ 中许多 $h$ 是“过拟合”的（“过拟合”的极端是全完拟合：虽然在数据集 $D$ 上误差为0，但它的泛化误差大），剔除这些“过拟合”的假设后，其任一假设 $h$ 都是有效解，而剔除“过拟合”需要足够的样本数量。

可分情形

在可分（即 $\in \mathcal{H}$ ，参见12.1 概念类与假设空间的关系图12.2 所示）的条件下，【西瓜书p.270-271】给出的简单学习策略：取数据集 $D$ 上误差为0的假设 $h$ （注：本章的采样不考虑噪音等，即数据集中无矛盾数据，因而可以实现误差为0）。但问题在于这样的假设不是唯一的，设它们组成假设空间的子空间 $\mathcal{H}_D$ ，直观来看：最好在 $\mathcal{H}_D$ 中寻找需要的 $h$ 。而 $\mathcal{H}_D$ 中许多 $h$ 是“过拟合”的（即虽然在数据集 $D$ 上误差为0，但它的泛化误差大），剔除这些“过拟合”的假设后，其任一假设 $h$ 都是有效解，而剔除“过拟合”需要足够的样本数量。

（1）若 $E(h)>\epsilon$ ，则 $\hat E(h)=0$ 为小概率事件

设 $\mathcal{H}$ 中所有满足泛化误差 $E(h)>\epsilon$ 的 $h$ 组成 $\mathcal{H}_0$ ，【西瓜书式(12.10)(12.11)】论证了这样一个结论：若 $h\in \mathcal{H}_0$ ，则 $h$ 的经验误差为0的概率上界为
$\begin{align} P(\hat E(h)=0)<(1-\epsilon)^m \tag{12.5} \end{align}$
其中， $\hat E(h)$ 是由【西瓜书式(12.2)】定义的经验误差， $m = ∣ D ∣$ 。

$\mathcal{H}_0$ 为 $\mathcal{H}$ 的子集，即它有限，设 $\mathcal{H}_0=\{h_i\}_{i=1}^{n_0}$ ，则
$\begin{align} & \quad P(\forall h \in \mathcal{H}:E(h)>\epsilon\wedge \hat E(h)=0)\notag \\ & =P(\forall h \in \mathcal{H}_0:\hat E(h)=0)\notag \\ & =P(\hat E(h_1)=0\vee \hat E(h_2)=0\vee\cdots \vee \hat E(h_{n_0})=0)\notag \\ & \leqslant \sum_{h_i\in \mathcal{H}_0 }P(\hat E(h_i)=0)\notag \\ & <|\mathcal{H}_0|(1-\epsilon)^m\qquad \text{（由式(12.5)）}\notag \\ & \leqslant|\mathcal{H}|(1-\epsilon)^m \tag{12.6} \end{align}$

（2）若 $\hat E(h)=0$ ，则 $E(h)\approx 0$ 很可能

设 $\mathcal{H}$ 中所有满足经验误差 $\hat E(h)=0$ 的 $h$ 组成 $\mathcal{H}_D$ （因 $\in \mathcal{H}$ ，故 $\mathcal{H}_D$ 非空），则
$\begin{align} P(\exists h \in \mathcal{H}_D:E(h)\leqslant \epsilon) & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon)\notag \\ & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{（由$\mathcal{H}$定义）}\notag \\ & \geqslant 1-P(\forall h \in \mathcal{H}:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{（范围变大）}\notag \\ & >1-|\mathcal{H}|(1-\epsilon)^m\qquad \text{（由式(12.6)）} \tag{12.7} \end{align}$

由若式(12.7)知：要使式(12.2)成立，只需
$\begin{align} 1-|\mathcal{H}| (1-\epsilon)^m\geqslant 1-\delta \tag{12.8} \end{align}$
显然有解，这时“几乎” $E(h)\approx 0$ 。

（3）有限假设空间 $\mathcal{H}$ 都是PAC可学习的

从不等式(12.8)中解出 $m$ ，即【西瓜书式(12.14)】，它是式(12.2)成立所需的样本数，显然，这个所需的样本数不超过某个式(12.4)型的多项式，即有限假设空间 $\mathcal{H}$ 都是PAC可学习的。

又由【西瓜书式(12.14)】可能得到式(12.2)中泛化误差上界 $\epsilon$ 满足
$\begin{align} \epsilon & \geqslant \frac{1}{m}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})\notag \\ & \to 0 \, (\text{若} \ m \to +\infty ) \tag{12.9} \end{align}$
即给定 $\delta$ ，则 $\epsilon$ 收敛于0，且收敛速度为 $O(\frac{1}{m})$ 。