随记(1):学习《宝箱书》-可学性

《宝箱书》指的是周志华老师的《机器学习理论导引》

本章的内容围绕学习理论中的可学性理论展开,主要讨论「事件否能够通过机器学习来解决」这一问题。通过学习理论事先辨别某个问题是否能够被学习,将节省大量的时间与资源。

1. 补充证明:经验误差的期望等于其泛化误差

P25提到,当样本从样本空间独立同分布采样得到时,经验误差的期望等于其泛化误差。在此,对该证明进行补充。

首先需要补充说明「经验误差」和「泛化误差」的概念:

泛化误差:泛化误差其实是一个理想化的误差概念。计算泛化误差需要知道样本的真实分布,而在大多数时候,数据样本的真实分布情况并不为人所知。由于人们所获得的信息大多由采样(sampling)后的样本提供,因此在这种缺乏真实分布信息情况下,无法求得泛化误差。而正是因为泛化误差的不可求,才迫使人们去寻找一种替代的方法来定义学习算法的误差。这一替代品就是经验误差

经验误差:经验误差是指学习算法在样本上的误差。当数据与映射关系确定时,便能够求得具体的经验误差。

通过大数定理可以进一步讨论经验误差与泛化误差的关系。当样本量很大时,数据的采样分布接近于真实分布,经验误差的极限也就会趋于泛化误差。另一方面,若将每一个采样的样本都视为随机变量,那么经验误差的期望也就等于泛化误差:

证明过程分为两步,首先考察等式右边,泛化误差可表示为:

然后考察等式左边,经验误差可表示为:

经验误差的期望为:

由于样本是服从独立同分布的,所以所有样本的期望值相同,期望的平均就等于样本的期望,因此:

证毕。

参考:钥匙书:​​​​​​钥匙书KeyBook

2.体会一下PAC可学性的重要性

充分多视图
基于分歧的半监督学习的早期理论探讨大都针对多视图学习、以协同训练法为标本进行分析。Blum 和 Mitchell在提出协同训练法时证明了一个有趣的定理: 如果数据拥有的两个充分冗余视图满足条件独立性, 那么若假设空间H2是噪声模型下PAC可学习的, 则给定弱分类器h1∈H1和未标记数据, 假设空间 (H1,H2) 对协同训练法可学习. 该定理显示出, 协同训练法可通过利用未标记数据把弱分类器的性能提升到任意精度. 此后, Dasgupta等进一步证明, 分类器间的分歧程度是协同训练法泛化错误率的上界.。

充分单视图
上述理论结果均假设数据包含多个视图, 难以为单视图学习方法提供理论支撑.。

Wang和Zhou证明, 只需两个PAC学习器具有较大的差异, 就可通过协同训练法利用未标记数据提升学习性能. 这一结果揭示出此类方法的本质是在利用学习器间的分歧, 而多视图只是为学习器产生分歧提供了更有利的条件; 若能通过其他机制为学习器产生足够的差异, 则在单视图条件下也可进行基于分歧的半监督学习, 从而为单视图学习方法提供了理论支撑. 值得一提的是, 以往理论分析显示出可通过利用未标记样本将学习器精度提升到任意高, 但实验和应用却显示出在运行一定的轮数后会出现 “饱和” 现象, 即进一步利用未标记样本不起作用; 换言之, 理论结果与实际效果之间存在一个 大间隙. Wang和Zhou的结果弥补了这个间隙: 由于学习器相互学习, 它们必然变得逐渐相似, 从而导 致在运行一定的轮数后, 分类器间的分歧将不足以 支持进一步的性能提高. 这为设计出 “自适应停止” 方法提供了启示.

由此, Wang 和 Zhou证明了协同训练法的充分必要性定理. 该结果显示出, 协同训练只关心权值矩阵的性质, 而并不在意权值矩阵是否通过多视图得到, 这确认了基于分歧的学习方法并不需要多视图, 仅要求分类器间存在适当的分歧; 而必要性条件是每个未标记样本在联合图中都与有标记样本连通.。

不充分视图
上述理论探讨都基于一个共同的假设: 视图是充分的, 即视图可提供足够的信息来正确预测所有样本的标记. 在多视图情形下, 这意味着每个视图都可提供足够信息以学得能将所有样本正确分类的完 美分类器. 基于这一假设, Balcan和Blum利用相容性 (Compatibility) 的概念提出了一种关于多视图半监督学习的PAC框架. 值得注意的是, 如果不能保证每个视图提供足够信息来正确预测所有样本的标记, 则每个视图上的最优分类器都会错误地标记某些样本, 这会导致不同视图上的最优分类器不相容. 因此, Balcan和Blum的相容性PAC框架不适用于不充分视图上的学习.。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白 AI 日记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值