【机器学习基础概念】过拟合，交叉验证，VC维

最新推荐文章于 2021-11-09 23:04:59 发布

荪荪

最新推荐文章于 2021-11-09 23:04:59 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SMF0504/article/details/52778396

版权

机器学习专栏收录该内容

40 篇文章 2 订阅

订阅专栏

过拟合

概念理解：为了使分类器能够对训练数据进行完全正确的分类，而把分类器构造得过度精细复杂，使得训练数据稍微有改动，分类器就会失效。简单点理解就是，能够正确甚至百分百分类训练数据，对于测试数据却不能得到很好的结果。

出现原因：出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少

交叉验证

也称为循环估计，是将一个样本集，分割成两个子集，一个作为训练数据用，一个作为测试数据用。之所以说循环，是因为分割的操作不会只进行一次，而是会循环进行，保证所有样本均有测试数据和训练数据的机会，即交叉使用。

作用：交叉验证是一种预测模型拟合性能的方法。

常见验证方式：

1.holdout验证

通常来说，Holdout验证并非是一种交叉验证，因为数据并没有交叉使用。把随机样本随机分割成两部分，一部分作为验证数据，一部分作为训练数据。

2.K-fold cross-validation(k折交叉验证)

将初始样本分割成K个子样本，一个单独子样本作为验证数据，其他K-1个样本作为训练。交叉验证重复K次。10折交叉验证是最常用的。

3.留一验证

只使用样本中的一项作为验证数据，所有剩余的作为训练数据。这个步骤一直持续到每个样本都被当做一次验证数据。

http://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89

http://www.zhihu.com/question/23578594

泛化能力

概括地说，所谓泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律，对具有同一规律的学习集以外的数据，经过训练的算法也能给出合适的输出，该能力称为泛化能力。

VC维

对于一个分类H，定义它的Vapnik Chervonenkis dimension，记做VC(H)：指的是能够被H打散(shatter)的最大集合的数目。如果H能够打散任务数目的集合，则VC(H)为无穷大。

比如，一个二维线性分类器，很显然打散1个点或集合、2个点或集合，而最多能打散3个点或集合。所以二维线性分类器的VC维等于3。

http://www.cnblogs.com/wuyuegb2312/archive/2012/12/03/2799893.html

分类技术种类

1.概率分类器

NB，ME

2.空间分割

Perceptron,SVM

3.其他

kNN

结构化风险 = 经验风险 + 置信风险

经验风险 = 分类器在给定样本上的误差

置信风险 = 分类器在未知文本上分类的结果的误差

置信风险因素：

样本数量，给定的样本数量越大，学习结果越有可能正确，此时置信风险越小；
分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。

提高样本数量，降低VC维，降低置信风险。

以前机器学习的目标是降低经验风险，要降低经验风险，就要提高分类函数的复杂度，导致VC维很高，VC维高，置信风险就高，所以，结构风险也高

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习基础概念】过拟合，交叉验证，VC维

过拟合概念理解：为了使分类器能够对训练数据进行完全正确的分类，而把分类器构造得过度精细复杂，使得训练数据稍微有改动，分类器就会失效。简单点理解就是，能够正确甚至百分百分类训练数据，对于测试数据却不能得到很好的结果。出现原因：出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少交叉验证也称为循环估计，是将一个样本集，分割成两个子集，一个作为训练数据用，一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。