12.计算学习理论
12.1基础知识
计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。理论是共性的、抽象的,是基于众多个体总结出来的规律,反过来可以作为个体的理论依据。
12.2PAC学习
计算学习理论中最基本的是概率近似正确(probably approximately correct,pac)学习理论。
令c表示概念(concept),是从样本空间X到标记空间Y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x)=y成立,则称c为目标概念;所有学得的目标概念所构成的集合称为概念类(concept class),用C表示。
给定学习算法A,其所考虑的所有可能概念的集合称为假设空间(hypothesis space),用符号H表示。学习算法事先并不知道概念类的真实存在,因此H和C通常是不同的。学习算法会把自认为可能的目标概念集中起来构成H,对h∈H,由于并不能确定它是否真是目标概念,因此成为假设(hypothesis)。假设h也是从样本空间X到标记空间Y的映射。
若目标概念c∈H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法A是可分的(separable),也称为一致性(consistent);若c∉H,则H中不存在任何假设能将所有示例完全正确分开,称该问题对学习算法A是不可分的(non-separable),也称不一致性(non-consistent)。
给定训练集D,期望基于学习算法A学得的模型所对应的假设h尽可能接近目标概念c。由于机器学习过程受到众多因素制约,包括样本数量的有限性、采样的偶然性,因此只能接近目标概念,而不能精确,希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型,也就是PAC定义的来由,使概率上近似正确。