12. 计算学习理论
12.1 基础知识
计算机学习理论研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证。例如:在什么条件下可进行有效的学习,需要多少训练样本才能获得较好的精度等。
泛化误差与经验误差
- 经验误差:学习器在某个特定的数据集D上的预测误差
- 泛化误差:学习器在总体上的预测误差
而在实际问题中,我们往往不能得到总体且数据集D是通过独立同分布采样得到的,因此我们常常使用经验误差作为泛化误差的近似。
12.2 PAC学习
对于机器学习算法,学习器是为了寻找合适的映射规则,即如何从条件属性得到目标属性。从样本空间到标记空间存在着很多的映射,称之为概念 c c c,它决定着示例 x x x的真实标记 y y y
- 若对任何示例 ( x , y ) (x,y) (x,y)都有 c ( x ) = y c(x)=y c(x)=y成立,则称 c c c为目标概念,所有希望学得的目标概念 c c c组成的集合为“概念类”
- 给定学习算法,它所考虑的所有可能概念的集合称为“假设空间”,其中单个的概念称为“假设”
- 若一个算法的假设空间包含目标概念,则称该数据集对算法是“可分的”,也称“一致的”
- 若一个算法的假设空间不包含目标概念,则称该数据集对算法是“不可分的”,也称“不一致的”
给定一个数据集D,我们希望模型学得的假设h尽可能与目标概念一致,即以较大的概率学得误差满足预设上限的模型,这就是概率近似正确的含义。
这样的学习算法能以较大的概率(至少1- δ \delta