训练数据的充分性(1):PAC学习保证

本文探讨了训练数据充分性的重要性,特别是在机器学习中防止过度拟合的问题。PAC学习保证理论指出,当训练数据量足够大,即使训练误差为零,也能确保实际错误率保持在较低水平。这为理解训练集规模与模型复杂度之间的关系提供了理论支持,强调了大数据对于构建有效分类器的关键作用。
摘要由CSDN通过智能技术生成

在上一篇博文中介绍了训练错误和实际错误。当训练错误很低,但是实际错误很高时,说明我们构造的分类器出现了过度拟合。出现过度拟合的原因是,我们设计的分类器过于复杂,以至于它可以记录所有的分类数据。这就导致了分类模型的可扩展性极差。因此,分类器的复杂程度是和训练数据规模密切相关的。训练数据规模越大,我们的分类器可以设计的越复杂。相反地,如果训练数据规模很小,复杂的分类器对训练效果有害无利。这就是著名的奥克姆剃刀所阐述的思想。

本文介绍的定理称为几乎估计正确学习保证(PAC learning guarantee)。这里的PAC是Probably approximately correct的简写。该定理说的是,对于一个给定的分类器,当数据规模充分大,那么零训练错误,必然导致小的真实错误。这就从理论上证明了零训练错误的意义。

定理7. 令 H 为有限个分类器构成的集合。令 ϵ δ 为两个正实数。如果 S 是一个随机抽取的训练集,它的大小为n。对于 S 中的每个训练实例,都是以概率分布D从实例空间随机抽取。那么当

n>1ϵln(|H|+1δ)

时,以概率 >1δ ,这个训练集满足
errD(h)<ϵ

对所有满足
errS(h)=0

的分类器成立。更确切地说
Pr{ h:errS(h)=0[errD(h
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值