【机器学习基础概念】过拟合,交叉验证,VC维

过拟合

概念理解:为了使分类器能够对训练数据进行完全正确的分类,而把分类器构造得过度精细复杂,使得训练数据稍微有改动,分类器就会失效。简单点理解就是,能够正确甚至百分百分类训练数据,对于测试数据却不能得到很好的结果。

出现原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少


交叉验证

也称为循环估计,是将一个样本集,分割成两个子集,一个作为训练数据用,一个作为测试数据用。之所以说循环,是因为分割的操作不会只进行一次,而是会循环进行,保证所有样本均有测试数据和训练数据的机会,即交叉使用

作用: 交叉验证是一种预测模型拟合性能的方法。

常见验证方式:

1.holdout验证

通常来说,Holdout验证并非是一种交叉验证,因为数据并没有交叉使用。把随机样本随机分割成两部分,一部分作为验证数据,一部分作为训练数据。

2.K-fold cross-validation(k折交叉验证)

将初始样本分割成K个子样本,一个单独子样本作为验证数据,其他K-1个样本作为训练。交叉验证重复K次。10折交叉验证是最常用的。

3.留一验证

只使用样本中的一项作为验证数据,所有剩余的作为训练数据。这个步骤一直持续到每个样本都被当做一次验证数据。

http://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89

http://www.zhihu.com/question/23578594


泛化能力

概括地说,所谓泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的算法也能给出合适的输出,该能力称为泛化能力。


VC维

对于一个分类H,定义它的Vapnik Chervonenkis dimension,记做VC(H):指的是能够被H打散(shatter)的最大集合的数目。如果H能够打散任务数目的集合,则VC(H)为无穷大。

比如,一个二维线性分类器,很显然打散1个点或集合、2个点或集合,而最多能打散3个点或集合。所以二维线性分类器的VC维等于3。

http://www.cnblogs.com/wuyuegb2312/archive/2012/12/03/2799893.html


分类技术种类

1.概率分类器

   NB,ME

2.空间分割

   Perceptron,SVM

3.其他

  kNN

结构化风险 = 经验风险 + 置信风险

经验风险 =  分类器在给定样本上的误差

置信风险 = 分类器在未知文本上分类的结果的误差

置信风险因素:

  • 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;
  • 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。

提高样本数量,降低VC维,降低置信风险。

以前机器学习的目标是降低经验风险,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,所以,结构风险也高


0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值