Foundation of Machine Learning 笔记第一部分——PAC学习框架

最新推荐文章于 2023-04-08 22:36:31 发布

置顶路虽远在路上

最新推荐文章于 2023-04-08 22:36:31 发布

阅读量4.6k

点赞数

分类专栏：机器学习计算学习理论 PAC 文章标签：机器学习计算学习理论 PAC 读书笔记个人翻译

本文链接：https://blog.csdn.net/u010185894/article/details/59716397

版权

机器学习同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

计算学习理论

8 篇文章 1 订阅

订阅专栏

PAC

8 篇文章 0 订阅

订阅专栏

前言

注意事项：

这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记，但实际我是直接对书本的部分内容进行了个人翻译，如果这个行为有不妥当的地方，敬请告知。
由于知识面限制，部分名词的翻译可能存在错误，部分难以翻译的名词保留英文原词。为了防止误导大家，在这里声明本文仅供参考。
本文基本翻译自《Foundation of Machine Learning》的2.1节。

正文

在设计和分析学习算法的时候我们会产生几个问题：哪些任务是可以有效地学习的？算法在学习过程中有哪些固有困难？要成功地学习一个任务需要提供多少样本？存在通用的学习模型吗？在这一章中，我们通过引入Probably Approximately Correct ( PAC ) 学习框架，把这些问题形式化，并将解决这些问题。根据算法要取得近似解所需要的样本数——称为样本复杂度，和学习算法所需要的时间和空间复杂度，PAC框架定义了一种可学习 ( learnable ) 的 concept。

PAC学习模型

为了理解PAC模型，我们首先引入几个定义和概念。

我们使用 $\chi$ 来表示所有可能的样本。 $\chi$ 有时候也代表着输入空间 ( input space )。所有标签和目标值的集合用 $\mathcal{Y}$ 表示。因为这一章是介绍性的章节，我们仅讨论 $\mathcal{Y}$ 只有两种标签的情况， $\mathcal{Y}=\{0,1\}$ ，即二分类问题。接下来的章节会把这里的结果拓展到更加一般的背景。

定义 concept $c:\mathcal{X}\to\mathcal{Y}$ 为一个从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的映射。由于 $\mathcal{Y}=\{0,1\}$ ，我们可以把 $c$ 等同地看作 $\mathcal{X}$ 中所有对应的像为 1 的元素构成的集合。因此，接下来我们将使用从 $\mathcal{X}$ 到 $\{0,1\}$ 的映射或者 $\mathcal{X}$ 的一个子集来表示要学习的 concept。举个例子，一个 concept 可以是平面中一个三角形内的点，或者可以是这些点的一个指示函数 ( indicator function )。在这个例子中，我们可以把要学习的 concept 归纳为一个三角形。concept class 是我们可能想要学到的 concept 的集合，用 C 表示。例如，一个 concept class 可以是平面中的一系列三角形。

我们假设样本都是从某个确定但未知的分布 D 中独立抽取出来的，也就是说样本都是独立同分布的 $( i.i.d )$ 。那么学习问题就能用下面的数学语言来表示。学习主体从某个固定的 concept 的集合 H 选择合适的 concept，称 H 为假设集 ( hypothesis set )，H 不一定和C 重合。学习主体可以接收样本集 $\mathcal{S}=(\mathcal{x}_{1},...,\mathcal{x}_{\mathcal{m}})$ 和标签 $(\mathcal{c}(\mathcal{x}_{1}),...,\mathcal{c}(\mathcal{x}_{\mathcal{m}}))$ ，其中样本集根据 D 独立同分布地抽取得到，标签是基于特定等待学习的目标 concept $c \in C$ 得到的。学习主体的任务就是使用带标签的样本集 S 去选择一个与 concept c 相比有较小泛化误差 ( generalization error ) 的假设 $h_S \in H$ 。一个假设 $h \in H$ 的泛化误差也被称为真误差 (true error) 或者直接就是误差 (error)，使用 $R(h)$ 表示，它的定义如下所示。

定义 2.1 泛化误差

给定一个假设 $h \in H$ ，一个目标 concept $c \in C$ ，以及一个潜在的分布 D，泛化误差，或者说 h 的风险可以定义为

R (h) = P r x \sim D [h (x) \neq c (x)] = E x \sim D [1 h (x) \neq c (x)], (2.1)

$R(h)={ \rm Pr }_{x \sim D}\left[h(x)\neq c(x)\right]={\rm E}_{x \sim D}\left[1_{h(x) \neq c(x)}\right], \tag {2.1}$ 这里的

1ω $1_\omega$ 是事件

ω $\omega$ 的指示函数。

因为分布 D 和目标 concept c 都是未知的，所以学习主体不能直接得到一个假设的泛化误差。但是它可以测量假设在某个带标签的样本集上的经验误差 ( empirical error )。

定义 2.2 经验误差

给定一个假设 $h\in H$ ，一个目标 concept $c \in C$ ，以及一个样本集 $S=(x_1,...,x_m)$ ，h 的经验误差，或者称为经验风险，定义为

R^(h) = 1 m \sum i = 1 m 1 h (x) \neq c (x) . (2.2)

$\hat R(h)=\frac{1}{m}\sum_{i=1}^{m}1_{h(x)\neq c(x)}.\tag {2.2}$

因此， $h \in H$ 的经验误差就是它在一个样本集 $S$ 上的平均误差，相对的， $h$ 的泛化误差则是它基于分布 $D$ 的期望误差。我们注意到，对于一个给定的 $h \in H$ ，它在一个服从独立同分布的样本集 $S$ 上的经验误差的期望值等于它的泛化误差：

E [R^(h)] = R (h) . (2.3)

${\rm E}\left[\hat R(h)\right]=R(h) .\tag{2.3}$ 根据数学期望的线性性质，以及因为样本集是独立同分布地抽取的，对于样本集

S $S$ 中的任一元素

x $x$ 我们可以写出

E S \sim D m [R^(h)] = 1 m \sum i = 1 m E S \sim D m [1 h (x i) \neq c (x i)] = 1 m \sum i = 1 m E S \sim D m [1 h (x) \neq c (x)],

${\rm E}_{S \sim D^m}\left[\hat R(h)\right]=\frac{1}{m}\sum_{i=1}^{m}{\rm E}_{S \sim D^m}\left[1_{h(x_i)\neq c(x_i)}\right]=\frac{1}{m}\sum_{i=1}^m{\rm E}_{S\sim D^m}\left[1_{h(x)\neq c(x)}\right],$ 因此

E S \sim D m [R^(h)] = E S \sim D m [1 h (x) \neq c (x)] = E x \sim D [1 h (x) \neq c (x)] = R (h) .

${\rm E}_{S\sim D^m}\left[\hat R(h)\right]={\rm E}_{S\sim D^m}\left[1_{h(x) \neq c(x)}\right]={\rm E}_{x\sim D}\left[1_{h(x)\neq c(x)}\right]=R(h).$

接下来引入 PAC 学习框架。我们使用 $\mathcal{O}(n)$ 来表示任意 $x\in \mathcal{X}$ 的运算表示成本的上限，用 size( $c$ ) 表示 $c\in C$ 的最大运算表示成本。例如，设 $x$ 是 $\mathbb{R}^n$ 上的一个向量，它基于阵列的表示成本应该在 $\mathcal{O}(n)$ 以内 (我的理解： $n$ 是样本的维数， size( $c$ ) 是函数 $c(x)$ 的时间复杂度)。

定义 2.3 PAC学习

称一个 concept class $C$ 是 PAC 可学习的 ( PAC-learnable )，如果存在一个算法 $\mathcal{A}$ 和一个多项式函数 $poly(\cdot，\cdot，\cdot)$ ，使得对于任意 $\epsilon>0$ 和 $\delta>0$ ，对于所有 $\mathcal{X}$ 上的分布 $D$ 和任意的目标 concept $c \in C$ ，当样本量 $m\ge poly\left(1/ \epsilon,1/\delta,n,size(c)\right)$ 都有下式成立：

P r S \sim D m [R (h S) \leq ϵ] \geq 1 - δ . (2.4)

${\rm Pr}_{S\sim D^m}\left[R\left(h_S\right)\le\epsilon\right]\ge1-\delta.\tag{2.4}$ 进一步地，如果

A $\mathcal{A}$ 运行时间复杂度小于

poly(1/ϵ,1/δ,n,size(c)) $poly(1/\epsilon,1/\delta,n,size(c))$ ，那么称

C $C$ 可有效 PAC 学习 ( efficiently PAC-learnable )。当这样一个算法

A $\mathcal{A}$ 存在时，它被称为

C $C$ 的一个PAC学习算法。

对于某个 concept class $C$ ，如果一个算法在对关于 $1/\epsilon$ 和 $1/\delta$ 的多项式量级的样本进行观察后返回的假设能保证以高概率 (至少 $1-\delta$ ) 近似正确 (误差小于 $\epsilon$ ) 地对样本进行预测，就称 $C$ 是PAC可学习的。 $\delta\gt0$ 规定了置信度 $1-\delta$ ， $\epsilon\gt0$ 规定了准确率 $1-\epsilon$ 。注意如果算法的运行时间是关于 $1/\epsilon$ 和 $1/\delta$ 的多项式级别的，那么算法接收的样本量 $m$ 必然是多项式级别的 ( 我的理解：否则算法在对样本进行读取这个操作本身就不可能是多项式级别的了 )。

PAC的定义中有几个值得强调的关键点。首先，PAC学习是一个对分布没有限制的模型：这里没有对样本抽取的分布 $D$ 做特别的假设。其次，定义误差的训练样本和测试例子都是根据同一个分布 $D$ 抽取的。为了使泛化称为可能，在大多数情况下这是一个必要的假设。最后，PAC框架解决了一个 concept class ，而不只是某一个concept，的可学习性问题。注意 concept class $C$ 对算法来说是已知的，但目标 concept $c\in C$ 是未知的。