【周志华机器学习】十二、计算学习

最新推荐文章于 2023-08-30 16:33:40 发布

CHH3213

最新推荐文章于 2023-08-30 16:33:40 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能计算学习

本文链接：https://blog.csdn.net/weixin_42301220/article/details/124072803

版权

机器学习专栏收录该内容

27 篇文章 61 订阅

订阅专栏

文章目录

参考资料
1. 基本概念
2. PAC学习
3. 有限假设空间
- 3.1 可分情形
- 3.2 不可分情形
4. VC维
5. 稳定性

参考资料

本博客是根据周志华的西瓜书和参考资料1、2、3所做的笔记，主要用于学习，非技术类博客，因此存在大量复制粘贴，请见谅。
如果本篇博客有后记部分，则该部分表示的是在书本原有的基础知识上，进行的知识点的扩充。

1. 基本概念

计算学习理论（computational learning theory）是通过“计算”来研究机器学习的理论，简而言之，其目的是分析学习任务的本质，例如：在什么条件下可进行有效的学习，需要多少训练样本能获得较好的精度等，从而为机器学习算法提供理论保证。

在这里插入图片描述

补充常用不等式：

2. PAC学习

计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,简称 PAC) 学习理论。

我们将函数定义为：从自变量到因变量的一种映射；对于机器学习算法，学习器也正是为了寻找合适的映射规则，即如何从条件属性得到目标属性。从样本空间到标记空间存在着很多的映射，我们将每个映射称之为概念（concept），定义：

若概念c对任何样本x满足c(x)=y，则称c为目标概念，即最理想的映射，所有的目标概念构成的集合称为**“概念类”；
给定学习算法，它所有可能映射/概念的集合称为“假设空间”，其中单个的概念称为“假设”（hypothesis）；
若一个算法的假设空间包含目标概念，则称该数据集对该算法是可分**（separable）的，亦称一致（consistent）的；
若一个算法的假设空间不包含目标概念，则称该数据集对该算法是不可分（non-separable）的，或称不一致（non-consistent）的。

对于非线性分布的数据集，若使用一个线性分类器，则该线性分类器对应的假设空间就是空间中所有可能的超平面，显然假设空间不包含该数据集的目标概念，所以称数据集对该学习器是不可分的。给定一个数据集D，我们希望模型学得的假设h尽可能地与目标概念一致，这便是概率近似正确 (Probably Approximately Correct，简称PAC)的来源，即以较大的概率学得模型满足误差的预设上限。

在这里插入图片描述

PAC学习中一个关键因素是假设空间H的复杂度. $H$ 包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即 $H = C$ ,这称为“恰PAC可学习” (properly PAC learnable); 直观地看,这意味着学习算法的能力与学习任务“恰好匹配”.然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类 $C$ 通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法,显然,更重要的是研究假设空间与概念类不同的情形.一般而言, $H$ 越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大. $∣ H ∣$ 有限时,我们称 $H$ 为“有限假设空间”,否则称为“无限假设空间”

3. 有限假设空间

3.1 可分情形

可分情形意味着目标概念 $C$ 属于假设空间 $H$ ,即 $C\in H$ 。

容易想到一种简单的学习策略:既然D中样例标记都是由目标概念C赋予的,并且C存在于假设空间H中,那么,任何在训练集D上出现标记错误的假设肯定不是目标概念C.于是,我们只需保留与D一致的假设,剔除与D不一致的假设即可,若训练集D足够大,则可不断借助D中的样例剔除不一致的假设,直到H中仅剩下一个假设为止,这个假设就是目标概念C。通常情形下,由于训练集规模有限,假设空间H中可能存在不止一个与D一致的“等效”假设,对这些等效假设,无法根据D来对它们的优劣做进一步区分。因此问题转化为：需要多大规模的数据集D才能让学习算法以置信度的概率从这些经验误差都为0的假设中找到目标概念的有效近似。

在这里插入图片描述

3.2 不可分情形

不可分情形指的是：目标概念不存在于假设空间中，这时我们就不能像可分情形时那样从假设空间中寻找目标概念的近似。但当假设空间H给定时，必然存一个假设的泛化误差最小，若能找出此假设的有效近似也不失为一个好的目标，H中泛化误差最小的假设是 $\argmin_{h\in H}E(h)$ ，于是，以此为目标可将PAC推广到 $c\notin H$ 的情况，这便是不可知学习(agnostic learning)的来源。
在这里插入图片描述

该部分可用Hoeffding不等式分析。具体查看西瓜书第12章。

4. VC维

现实中的学习任务通常都是无限假设空间，例如d维实数域空间中所有的超平面等，因此要对此种情形进行可学习研究，需要度量假设空间的复杂度。这便是VC维（Vapnik-Chervonenkis dimension）的来源。在介绍VC维之前，需要引入几个概念：

4.1 增长函数

在这里插入图片描述

增长函数表示假设空间H对m个示例所能赋予标记的最大可能结果数。显然，H对示例所能赋予标记的可能结果数越大, H的表示能力越强, 对学习任务的适应能力也越强, 因此, 增长函数描述了假设空间H的表示能力, 由此反映出假设空间的复杂度。

我们可利用增长函数来估计经验误差与泛化误差之间的关系:
在这里插入图片描述

4.2 对分与打散

假设空间H中不同的假设对于D中示例赋予标记的结果可能相同, 也可能不同; 尽管H可能包含无穷多个假设, 但其对D中示例赋予标记的可能结果数是有限的: 对m个示例, 最多有 $2^m$ 个可能结果。对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”。若假设空间H能实现示例集D上的所有对分, 则称示例集D能被假设空间H“打散”。