机器学习笔记(十二)计算学习理论

最新推荐文章于 2024-08-19 16:35:53 发布

fjssharpsword

最新推荐文章于 2024-08-19 16:35:53 发布

阅读量4.7k

点赞数 3

分类专栏： Algorithm 机器学习专栏

本文链接：https://blog.csdn.net/fjssharpsword/article/details/70738121

版权

12.计算学习理论

12.1基础知识

计算学习理论（computationallearning theory）研究的是关于通过计算来进行学习的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。理论是共性的、抽象的，是基于众多个体总结出来的规律，反过来可以作为个体的理论依据。

12.2PAC学习

计算学习理论中最基本的是概率近似正确（probably approximately correct,pac）学习理论。

令c表示概念（concept），是从样本空间X到标记空间Y的映射，它决定示例x的真实标记y，若对任何样例（x,y）有c(x)=y成立，则称c为目标概念；所有学得的目标概念所构成的集合称为概念类（concept class），用C表示。

给定学习算法A，其所考虑的所有可能概念的集合称为假设空间（hypothesis space），用符号H表示。学习算法事先并不知道概念类的真实存在，因此H和C通常是不同的。学习算法会把自认为可能的目标概念集中起来构成H，对h∈H，由于并不能确定它是否真是目标概念，因此成为假设（hypothesis）。假设h也是从样本空间X到标记空间Y的映射。

若目标概念c∈H，则H中存在假设能将所有示例按与真实标记一致的方式完全分开，称该问题对学习算法A是可分的（separable），也称为一致性（consistent）；若c∉H，则H中不存在任何假设能将所有示例完全正确分开，称该问题对学习算法A是不可分的（non-separable），也称不一致性（non-consistent）。

给定训练集D，期望基于学习算法A学得的模型所对应的假设h尽可能接近目标概念c。由于机器学习过程受到众多因素制约，包括样本数量的有限性、采样的偶然性，因此只能接近目标概念，而不能精确，希望以比较大的把握学得比较好的模型，也就是说，以较大的概率学得误差满足预设上限的模型，也就是PAC定义的来由，使概率上近似正确。