训练数据的充分性（1）：PAC学习保证

最新推荐文章于 2023-06-01 14:10:12 发布

汪星人来地球

最新推荐文章于 2023-06-01 14:10:12 发布

阅读量836

点赞数

分类专栏：机器学习文章标签：训练集过度拟合机器学习

本文链接：https://blog.csdn.net/hedan2013/article/details/77817070

版权

本文探讨了训练数据充分性的重要性，特别是在机器学习中防止过度拟合的问题。PAC学习保证理论指出，当训练数据量足够大，即使训练误差为零，也能确保实际错误率保持在较低水平。这为理解训练集规模与模型复杂度之间的关系提供了理论支持，强调了大数据对于构建有效分类器的关键作用。

摘要由CSDN通过智能技术生成

在上一篇博文中介绍了训练错误和实际错误。当训练错误很低，但是实际错误很高时，说明我们构造的分类器出现了过度拟合。出现过度拟合的原因是，我们设计的分类器过于复杂，以至于它可以记录所有的分类数据。这就导致了分类模型的可扩展性极差。因此，分类器的复杂程度是和训练数据规模密切相关的。训练数据规模越大，我们的分类器可以设计的越复杂。相反地，如果训练数据规模很小，复杂的分类器对训练效果有害无利。这就是著名的奥克姆剃刀所阐述的思想。

本文介绍的定理称为几乎估计正确学习保证（PAC learning guarantee）。这里的PAC是Probably approximately correct的简写。该定理说的是，对于一个给定的分类器，当数据规模充分大，那么零训练错误，必然导致小的真实错误。这就从理论上证明了零训练错误的意义。

定理7. 令 $\mathcal{H}$ 为有限个分类器构成的集合。令 $\epsilon$ 和 $\delta$ 为两个正实数。如果 $S$ 是一个随机抽取的训练集，它的大小为n。对于 $S$ 中的每个训练实例，都是以概率分布D从实例空间随机抽取。那么当

n > 1 ϵ ln (| H | + 1 δ)

$n > \frac{1}{\epsilon} \ln( |\mathcal{H}|+\frac{1}{\delta})$
时，以概率

>1−δ $>1-\delta$ ，这个训练集满足

e r r D (h) < ϵ

$err_D(h) < \epsilon$
对所有满足

e r r S (h) = 0

$err_S(h) = 0$
的分类器成立。更确切地说

Pr {\cap h : e r r S (h) = 0 [e r r D (h

最低0.47元/天解锁文章

汪星人来地球

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
训练数据的充分性（1）：PAC学习保证

在上一篇博文中介绍了训练错误和实际错误。当训练错误很低，但是实际错误很高时，说明我们构造的分类器出现了过度拟合。出现过度拟合的原因是，我们设计的分类器过于复杂，以至于它可以记录所有的分类数据。这就导致了分类模型的可扩展性极差。因此，分类器的复杂程度是和训练数据规模密切相关的。训练数据规模越大，我们的分类器可以设计的越复杂。相反地，如果训练数据规模很小，复杂的分类器对训练效果有害无利。这就是著名的奥克
复制链接

扫一扫

专栏目录