【机器学习基础】理解为什么机器可以学习2——Hoeffding不等式

本文介绍了在有限假设空间中,如何使用Hoeffding不等式来界定概率边界,探讨了样本复杂度、训练错误率与真实错误率的关系。通过Hoeffding不等式,分析了训练数据量对学习器性能的影响,确保在样本数量足够时,机器学习算法能够学到有用的知识。
摘要由CSDN通过智能技术生成

引入

在上一小节"理解为什么机器可以学习——PAC学习模型"中,我们主要讨论了假设的错误率问题和如何说一个学习器是可学习的,并给出了PAC学习理论。这一小节,我们将沿着这个方向,讨论一下,有限假设空间的样本复杂度,并用Hoeffding不等式来界定概率边界。

假设空间的样本复杂度

PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度(sample complexity)。在多数实际问题中,最限制学习器成功的因素是有限的可用的训练数据。
我们通常都喜欢能与训练数据拟合程度更高的假设,当一个学习器在可能时都输出能完美拟合训练数据的假设时,我们称该学习器是一致的(consistent)。这就要求训练错误率是0。
遗憾的是,如果假设空间里不总是能找到一个零错误率的假设,这时,最多能要求学习器输出的假设在训练数据上有最小的错误率。
在更一般的情形下,我们要考虑学习器有非零训练错误率的假设时,仍能找到一个边界来限定学习器所需的样本数量。

Hoeffding边界

描述问题

现在,我们来更准确的描述我们要解决的问题。
令D代表学习器可观察的特定的训练数据集合,而P代表整个数据集合背后满足的概率分布。令Ein(h)代表假设h的训练错误率(在机器学习基石课程中,该错误率被称为in-sample error),确切的说,Ein(h)是数据集D中被h误分类的训练数据所占比例,Ein(h)是定义在训练数据集D上的,而真实错误率Eout(h)(out-of-sample error)是定义在整个概率分布P上的。现在令g代表H中有最小训练错误率的假设。问:多少训练数据才足以保证真实错误率Eout(h)和训练错误率Ein(h)很接近&#

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值