【周志华机器学习】十二、计算学习

参考资料

  1. Machine-learning-learning-notes
  2. LeeML-Notes
  3. ML-NLP

本博客是根据周志华的西瓜书和参考资料1、2、3所做的笔记,主要用于学习,非技术类博客,因此存在大量复制粘贴,请见谅。
如果本篇博客有后记部分,则该部分表示的是在书本原有的基础知识上,进行的知识点的扩充。

1. 基本概念

计算学习理论(computational learning theory)是通过“计算”来研究机器学习的理论,简而言之,其目的是分析学习任务的本质,例如:在什么条件下可进行有效的学习,需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证

在这里插入图片描述

在这里插入图片描述

补充常用不等式:

这里是引用

2. PAC学习

计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,简称 PAC) 学习理论。

我们将函数定义为:从自变量到因变量的一种映射;对于机器学习算法,学习器也正是为了寻找合适的映射规则,即如何从条件属性得到目标属性。从样本空间到标记空间存在着很多的映射,我们将每个映射称之为概念(concept),定义:

若概念c对任何样本x满足c(x)=y,则称c为目标概念,即最理想的映射,所有的目标概念构成的集合称为**“概念类”
给定学习算法,它所有可能映射/概念的集合称为
“假设空间”,其中单个的概念称为“假设”(hypothesis);
若一个算法的假设空间包含目标概念,则称该数据集对该算法是
可分**(separable)的,亦称一致(consistent)的;
若一个算法的假设空间不包含目标概念,则称该数据集对该算法是不可分(non-separable)的,或称不一致(non-consistent)的。

对于非线性分布的数据集,若使用一个线性分类器,则该线性分类器对应的假设空间就是空间中所有可能的超平面,显然假设空间不包含该数据集的目标概念,所以称数据集对该学习器是不可分的。给定一个数据集D,我们希望模型学得的假设h尽可能地与目标概念一致,这便是概率近似正确 (Probably Approximately Correct,简称PAC)的来源,即以较大的概率学得模型满足误差的预设上限。

在这里插入图片描述

在这里插入图片描述

PAC学习中一个关键因素是假设空间H的复杂度. H H H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即 H = C H=C H=C,这称为“恰PAC可学习” (properly PAC learnable); 直观地看,这意味着学习算法的能力与学习任务“恰好匹配”.然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类 C C C通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法,显然,更重要的是研究假设空间与概念类不同的情形.一般而言, H H H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大. ∣ H ∣ |H| H有限时,我们称 H H H为“有限假设空间”,否则称为“无限假设空间”

3. 有限假设空间

3.1 可分情形

可分情形意味着目标概念 C C C属于假设空间 H H H,即 C ∈ H C\in H CH

容易想到一种简单的学习策略:既然D中样例标记都是由目标概念C赋予的,并且C存在于假设空间H中,那么,任何在训练集D上出现标记错误的假设肯定不是目标概念C.于是,我们只需保留与D一致的假设,剔除与D不一致的假设即可,若训练集D足够大,则可不断借助D中的样例剔除不一致的假设,直到H中仅剩下一个假设为止,这个假设就是目标概念C。通常情形下,由于训练集规模有限,假设空间H中可能存在不止一个与D一致的“等效”假设,对这些等效假设,无法根据D来对它们的优劣做进一步区分。因此问题转化为:需要多大规模的数据集D才能让学习算法以置信度的概率从这些经验误差都为0的假设中找到目标概念的有效近似

在这里插入图片描述

3.2 不可分情形

不可分情形指的是:目标概念不存在于假设空间中,这时我们就不能像可分情形时那样从假设空间中寻找目标概念的近似。但当假设空间H给定时,必然存一个假设的泛化误差最小,若能找出此假设的有效近似也不失为一个好的目标,H中泛化误差最小的假设是 arg min ⁡ h ∈ H E ( h ) \argmin_{h\in H}E(h) hHargminE(h),于是,以此为目标可将PAC推广到 c ∉ H c\notin H c/H的情况,这便是不可知学习(agnostic learning)的来源。
在这里插入图片描述

该部分可用Hoeffding不等式分析。具体查看西瓜书第12章。

4. VC维

现实中的学习任务通常都是无限假设空间,例如d维实数域空间中所有的超平面等,因此要对此种情形进行可学习研究,需要度量假设空间的复杂度。这便是VC维(Vapnik-Chervonenkis dimension)的来源。在介绍VC维之前,需要引入几个概念:

4.1 增长函数

在这里插入图片描述
在这里插入图片描述

增长函数表示假设空间H对m个示例所能赋予标记的最大可能结果数。显然,H对示例所能赋予标记的可能结果数越大, H的表示能力越强, 对学习任务的适应能力也越强, 因此, 增长函数描述了假设空间H的表示能力, 由此反映出假设空间的复杂度。

我们可利用增长函数来估计经验误差与泛化误差之间的关系:
在这里插入图片描述

4.2 对分与打散

假设空间H中不同的假设对于D中示例赋予标记的结果可能相同, 也可能不同; 尽管H可能包含无穷多个假设, 但其对D中示例赋予标记的可能结果数是有限的: 对m个示例, 最多有 2 m 2^m 2m个可能结果。对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”。若假设空间H能实现示例集D上的所有对分, 则称示例集D能被假设空间H“打散”。

4.3 VC维

在这里插入图片描述

V C ( H ) = d VC(H) = d VC(H)=d表明存在大小为 d d d的示例集能被假设空间 H H H打散,注意:这并不意味着所有大小为 d d d的示例集都能被假设空间打散。VC维的定义与数据分布D无关!因此,在数据分布未知时仍能计算出假设空间H的VC维。

通常这样来计算H的VC维:若存在大小为d的示例集能被H打散,但不存在任何大小为d+1的示例集能被H打散,则H的VC维是d.下面给出两个计算VC维的例子:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

根据推论12.2和定理12.2可得基于VC维的泛化误差界:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
换而言之:若假设空间的最小泛化误差为0即目标概念包含在假设空间中,则是PAC可学习,若最小泛化误差不为0,则称为不可知PAC可学习。

5. 稳定性

稳定性考察的是当算法的输入发生变化时,输出是否会随之发生较大的变化,输入的数据集D有以下两种变化:
16.png

若对数据集中的任何样本z,满足:

17.png

即原学习器和剔除一个样本后生成的学习器对z的损失之差保持β稳定,称学习器关于损失函数满足β-均匀稳定性。同时若损失函数有上界,即原学习器对任何样本的损失函数不超过M,则有如下定理:

18.png

事实上,若学习算法符合经验风险最小化原则(ERM)且满足β-均匀稳定性,则假设空间是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起,区别在于:假设空间关注的是经验误差与泛化误差,需要考虑到所有可能的假设;而稳定性只关注当前的输出假设。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CHH3213

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值