Foundations of Machine Learning 2nd——第二章 PAC学习框架后记

本文链接：https://blog.csdn.net/qq_43631376/article/details/108868796

本文深入探讨了PAC（Probably Approximately Correct）学习框架在随机场景下的应用，包括agnostic PAC-learning的概念，以及贝叶斯误差和噪声的定义。在随机场景中，学习任务可能存在不确定性，导致标签非唯一，文中阐述了如何在这种情况下寻找最优映射。此外，还解释了贝叶斯误差作为衡量学习任务难度的指标，以及噪声在影响学习效果中的角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Foundations of Machine Learning 2nd——第二章 PAC学习框架后记

前言
Generalities 一般性
- 可确定性 VS 随机场景

前言

这一小篇文章承接“Fundations of Machine learning 2nd”系列笔记的第二篇，本来想把PAC分两次写，后来发现第一次写的太多了，因此这篇文章的内容不是特别多~看这篇文章之前建议先读上半部分。

Generalities 一般性

这一节主要讨论了一些更为普遍的学习场景。

可确定性 VS 随机场景

大部分有监督学习场景下， $D$ 分布式定义在 $X\times Y$ 上的，训练集样本独立同分布于 $D$ :
$S=((x_1,y1),..,(x_m,y_m))$
我们要学习的就是找到一个具有最小的generalization error的映射 $h\in H$ ：
$\mathop{P}\limits_{(x,y)\sim D}[h(x)\neq y] = \mathop{E}\limits_{(x,y)\sim D}[1_{h(x)\neq y}]$
这种称为随机场景，标签的输出是一个关于输入的概率函数，输入样本的标签并不唯一。例如：如果根据身高体重的值来预测这个人是男是女，这个样本的标签就可以不唯一，有可能是男的，也有可能是女的。
把PAC-learning框架扩展到这一设定下，就称为“agnostic PAC-learning”

定义1 Agnostic PAC-learning

令 $H$ 是一个映射集， $A$ 是agnostic PAC-learning算法的条件是：如果存在一个多项式函数 $p o l y (\cdot, \cdot, \cdot, \cdot)$ ,使得对于任意的 $\epsilon > 0, \delta > 0$ ，对于 $X\times Y$ 上的所有分布 $D$ ,当样本量 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$ 时，下式都成立：
$\mathop{P}\limits_{S\sim D^m}[R(h_S)-\min\limits_{h\in H}R(h)\leq\epsilon]\geq1-\delta$
如果 $A$ 可以在 $poly(1/\epsilon,1/\delta,n)$ 的时间内运行的话，就是efficiently agnostic PAC-learning算法。

当一个样本的标签是唯一的，并且存在可计算的函数 $f:X\rightarrow Y$ 来确定标签，这种情况被称为可确定的（deterministic）。这时只在输入空间考虑分布 $D$ 就足够了。训练样本是从 $D$ 采样的 $x_1,...,x_m)$ ，标签是通过 $f:y_i = f(x_i)$ 获得的。

Bayes error and noise 贝叶斯误差和噪声

根据我们上面的定义，在确定的情况下，存在一个目标函数他的generalization error $R (h) = 0$ ，而对于随机场景，存在一个映射具有最小的非零误差。

定义2 Bayes error

给定一个在 $X\times Y$ 上的分布 $D$ ,贝叶斯误差 $R^*$ 定义为可计算映射 $h:X\rightarrow Y$ 可以实现的最小误差：
$R^*=\inf\limits_{h, measurable}R(h)$
这样的映射成为“Bayes hypothesis”，贝叶斯映射，或者贝叶斯分类器。

显然，在可确定情况下 $R^*=0$ ,随机情况下 $R^*\neq 0$
贝叶斯分类器也可以在条件概率下定义:
$\forall x\in X,\quad h_{Bayes}(x)=\argmax\limits_{y\in\{0,1\}}P[y|x]$

$h_{Bayes}在x\in X$ 上的平均损失就是 $min\{P[0|x],P[1|x]\}$ ，这也是最小可能损失。同时导出了noise的定义：

定义3 Noise

给定一个在 $X\times Y$ 上的分布 $D$ ，点 $x\in X$ 的noise定义如下：
$noise(x)=\min\{P[1|x],P[0|x]\}$
(一个贝叶斯分类器在点 $x$ 上的误差）

$E [n o i s e (x)]$ 即为平均噪声。
平均噪声即为贝叶斯误差： $E[noise(x)]=R^*$ 。他是学习任务的一个特征，用来表示困难程度。对于一个样本 $x\in X$ ,他的 $n o i s e (x)$ 接近 $1 / 2$ 时，就被认为是噪声点（noisy）,学习起来十分困难，自然也会影响预测准确度。