机器学习理论-PAC learning

最新推荐文章于 2025-01-21 09:57:39 发布

Johnson0722

最新推荐文章于 2025-01-21 09:57:39 发布

阅读量2.4k

点赞数 3

分类专栏：机器学习文章标签：机器学习 PAC learning

本文链接：https://blog.csdn.net/John_xyz/article/details/116561642

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

对于一个机器学习任务，通常需要考虑它是不是可学的 (learnable)
PAC学习给出了一个抽象的刻画机器学习能力的框架，基于这个框架，有很多重要问题可以探讨，例如: 某任务在什么样的条件下可学得较好的模型? 某算法在什么条件下可以进行有效的学习？需要多少训练样本才能获得较好的模型？

基本概念

给定样本集 $D=\{ (\pmb{x_1}, y_1), (\pmb{x_2}, y_2), ...(\pmb{x_m}, y_m)\}$ , $y_i \in \{-1, +1\} = \mathcal{Y}$ , $x_i \in \mathcal{X}$ , $D$ 中所有的样本都是独立同分布从 $\mathcal{D}$ 采样而得。
令 $h$ 为从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的一个映射, 其泛化误差(generalization error)为:
$\mathcal{D}) = P_{(x, y) \sim \mathcal{D}}(h(x) \neq y) = E_{(x,y) \sim \mathcal{D}}[I[h(x) \neq y]]$
$h$ 在 $D$ 上的经验误差(empirical error)为：
$\hat{E}(h;D)=\frac{1}{m}\sum_1^mI(h(x_i)\neq y_i)$

由于 $D$ 是 $\mathcal{D}$ 的独立同分布采样，所以 $h$ 经验误差的期望等于泛化误差。令 $\epsilon$ 为 $E (h)$ 的上限，即 $\leq \epsilon$ 。通常用 $\epsilon$ 表示模型应满足的误差要求，称为误差参数.
令 $c$ 表示概念, 它是从样本空间 $\mathcal{X}$ 到标记空间 $\mathcal{Y}$ 的映射。若任何样本 $(x, y)$ , 有 $c (x) = y$ , 则称 $c$ 为目标概念。所有目标概念所组成的集合称为概念类 $\mathcal{C}$

给定学习算法 $\mathcal{L}$ ，它考虑所有可能的假设空间 $\mathcal{H}$ . 假设空间是对于学习算法最大能力的整体刻画。假设空间给定了算法所有可能的映射函数。若目标概念 $\in \mathcal{H}$ , 则 $\mathcal{H}$ 存在假设能将所有样本正确分开，称该学习问题对假设空间是可分的（separable）；若 $\notin \mathcal{H}$ , 则称假设空间不存在任何假设能将所有样本完全正确分开，称该学习问题对假设空间是不可分的 (non-separable)

PAC learning

PAC learning(Probably Approximately Correct)是关于机器学习可学性的完整的理论。解释一下这个名字的由来：

Appromately Correct （近似正确），指的是学出的模型误差比较小，因为实现零误差 (Absolutely Correct)是很困难且通常是没有必要的，所以考虑的是 Approximately Correct
其次，由于数据随机性的存在，也只能从概率上保证Approximately Correct的可能性是很大的 (存在一个概率的下界)

PAC Identify (PAC 辨识)：对于 $\epsilon > 0, \delta<1$ , 所有 $c\in \mathcal{C}$ 和分布 $\mathcal{D}$ , 若存在学习算法 $\mathcal{L}$ , 其输出假设 $h\in \mathcal{H}$ 满足：
$\leq \epsilon) \geq 1-\delta$
则称学习算法 $\mathcal{L}$ 能从假设空间中PAC辨识概念类 $\mathcal{C}$

PAC learnable (PAC 可学): 令 $m$ 表示从分布 $\mathcal{D}$ 独立同分布采样得到样本的数， $\epsilon > 0, \delta<1$ ，对所有分布 $\mathcal{D}$ ，若存在学习算法 $\mathcal{L}$ 和多项式函数 $p o l y ()$ ，使得对于任何 $poly(1/\epsilon, 1/\delta, size(x), size(c))$ ， $\mathcal{L}$ 能从假设空间 $\mathcal{H}$ 中PAC identify 概念类 $\mathcal{C}$ , 就称概念类 $\mathcal{C}$ 是PAC可学的

Agnostic PAC Learnable (不可知PAC可学)：令 $m$ 表示从分布 $\mathcal{D}$ 独立同分布采样得到样本的数， $\epsilon > 0, \delta<1$ ，对所有分布 $\mathcal{D}$ ，若存在学习算法 $\mathcal{L}$ 和多项式函数 $p o l y ()$ ，使得对于任何 $poly(1/\epsilon, 1/\delta, size(x), size(c))$ ， $\mathcal{L}$ 能从假设空间中输出满足如下的假设 $h$ ：
$\underset{h'\in\mathcal{H}}{min} E(h') \leq \epsilon) >= 1 - \delta$

PAC Learning Algorithm(PAC学习算法): 若学习算法 $\mathcal{L}$ 使概念类 $\mathcal{C}$ 为PAC可学，且 $\mathcal{L}$ 的时间复杂度也是多项式函数 $poly(1/\epsilon, 1/\delta, size(x), size(c))$ , 则称概念类 $C$ 是高效PAC可学的， $\mathcal{L}$ 称概念类 $C$ 的PAC学习算法

(Sample Complexity)样本复杂度: 满足PAC学习算法 $\mathcal{L}$ 所需的最小样本数量 $poly(1/\epsilon, 1/\delta, size(x), size(c))$ ， $\mathcal{L}$ 称为学习算法 $\mathcal{L}$ 的样本复杂度

对于较为困难的学习问题，目标概念 $c$ 往往不存在于假设空间 $\mathcal{H}$ 中，也就是对于任何 $\in \mathcal{H}， \hat{E}(h) \neq 0$ , 也就是 $\mathcal{H}$ 任意一个假设都会在训练集出现或多或少的错误。
先给出Hoeffding不等式: 给定 $m$ 个取值为 $[0, 1]$ 的独立的随机变量 $x_1, x_2,...,x_m$ ，对任意 $\epsilon>0$ ，有如下等式成立：
$P(|\frac{1}{m}\sum_{i=1}^mx_i-\frac{1}{m}\sum_{i=1}^mE(x_i)| \geq \epsilon ) \leq exp(-2m \epsilon^2))$

根据Hoeffding不等式，有如下引理：若训练集 $D$ 中包含 $m$ 个从分布 $\mathcal{D}$ 上独立同分布采样而得到的样本， $\epsilon <1$ ，则对于任意 $\in \mathcal{H}$ 有：

$P(\hat{E}(h) - E(h) \geq \epsilon) \leq exp(-2m \epsilon^2)$ $\hat{E}(h) \geq \epsilon) \leq exp(-2m \epsilon^2)$ $P(|\hat{E}(h) - E(h)| \geq \epsilon) \leq 2exp(-2m \epsilon^2)$

同样的，可以证明:若训练集 $D$ 中包含 $m$ 个从分布 $\mathcal{D}$ 上独立同分布采样而得到的样本，则对于任意 $\in \mathcal{H}$ , 下式至少以 $\delta$ 成立. (只需要令 $\delta = 2exp(-2m\epsilon^2)$ 即可证明)

$\hat{E}(h) - \sqrt{\frac{1}{2m}ln\frac{2}{\delta}} < E(h) < \hat{E}(h) + \sqrt{\frac{1}{2m}ln\frac{2}{\delta}}$

该引理表面，当样本数目 $m$ 较大时， $h$ 的经验误差可以看成其泛化误差很好的近似

需要指出的是， PAC是一种分布无关的理论模型，因为它对分布 $\mathcal{D}$ 没有任何假设， $\mathcal{D}$ 可以是任何分布，但是训练集和测试集必须来自同一个分布。另外PAC考虑的是针对某个概念类 $\mathcal{C}$ 而不是特定概念的可学性，目标概念 $\in C$ 对于学习算法是未知的。

PAC学习中一个关键因素是假设空间 $\mathcal{H}$ 的复杂度。 $\mathcal{H}$ 越大，包含目标概念的可能性越大，但找到某个具体目标概念的难度也越大。 $\mathcal{H}$ 有限时，称 $\mathcal{H}$ 为有限假设空间；否则为无限假设空间。有限假设空间可以用概念个数来衡量其复杂度；无限假设空间的复杂度需要一些特别的技术 (VC维)。

PAC可学考虑的是学习算法 $\mathcal{L}$ 输出假设的泛化误差与最优假设泛化误差之间的差别，由于其真实分布未知，通常无法计算。不过由于经验误差和泛化误差有密切联系，可以借助经验误差进行比较。

泛化界

对于一个学习算法来说，判断其性能好坏的依据是泛化误差，即学习算法在未知数据上的预测能力。对于假设空间 $\mathcal{H}$ ，可以分为有限假设空和无限假设空间，根据目标概念 $\mathcal{c}$ 是否在 $\mathcal{H}$ 中可以分为 可分情形 和 不可分情形
我们来分别讨论一下。

泛化误差上界

有限假设空间

可分情形

对于可分的有限假设空间 $\mathcal{H}$ ，目标概念 $\in \mathcal{H}$ ，任何在训练集上犯错的假设都不是要找的目标概念，因此可以提出这些在训练集上出错的假设，留下与训练集一致的假设。如果训练集足够大，最终剩下的假设一定会很少，从而能以较大的概率找到目标概念的近似。实际中训练集往往是有限的，所有会剩下不止一个与训练集一致的假设。在PAC学习理论中，只要训练集 $D$ 的大小能使学习算法 $\mathcal{L}$ 至少以 $\delta$ 的概率找到目标近似即可。当 $\mathcal{H}$ 为可分的有限假设空间时，有下面的不等式成立

令 $\mathcal{H}$ 为可分的有限假设空间， $D$ 为从 $\mathcal{D}$ 独立同分布采样得到的大小为 $m$ 的训练集，学习算法 $\mathcal{L}$ 基于训练集 $D$ 输出与训练集一致的假设 $\in \mathcal{H}$ , 对于 $\epsilon > 0, \delta < 1$ ，若 $\geq \frac{1}{\epsilon}(ln|\mathcal{H}| + ln\frac{1}{\delta})$ , 有
$\leq \epsilon) \geq 1 - \delta$
这表明 $\mathcal{H}$ 为可分的有限假设空间时，学习算法输出的泛化误差依赖于假设空间的大小 $|\mathcal{H}|$ 和训练集的大小 $m$ 。随着训练集的样本数目逐渐增加，泛化误差的上界逐渐趋近于0, 收敛率为 $O(\frac{1}{m})$

不可分情形

不可分情形中，目标概念不在假设空间中，即假设空间中的每个假设都会或多或少的出现分类错误，我们的目标则是希望找到假设空间中泛化误差最小假设的 $\epsilon$ 近似。对于学习算法的输出假设 $h$ 来说，泛化误差是在未见数据上的预测能力，但是在训练集上的经验误差是直接可以观察到的。当训练集中样本数目较大时， $h$ 的经验误差时泛化误差的较好近似。

令 $\mathcal{H}$ 为可分的有限假设空间， $D$ 为从 $\mathcal{D}$ 独立同分布采样得到的大小为 $m$ 的训练集， $\in \mathcal{H}$ , 对于 $\epsilon > 0, 0<\delta < 1$ ，有
$\hat{E}(h)| \leq \sqrt{\frac{ln|\mathcal{H}| + ln(2/\delta)}{2m}}) \geq 1 - \delta$
这表明 $\mathcal{H}$ 为不可分的有限假设空间时，学习算法输出的泛化误差依赖于假设空间的大小 $|\mathcal{H}|$ 和训练集的大小 $m$ 。随着训练集的样本数目逐渐增加，收敛率为 $O(\frac{1}{\sqrt m})$