机器学习过拟合问题

原创 2016年06月02日 11:16:48

过拟合

过拟合的定义
在对已知的数据集合进行学习的时候,我们选择适应度最好的模型最为最终的结果。虽然我们选择的模型能够很好的解释训练数据集合,但却不一定能够很好的解释测试数据或者其他数据,也就是说这个模型过于精细的刻画了训练数据,对于测试数据或者其他新的数据泛华能力不强。

发生过拟合的原因
1)使用过于复杂的模型(dvc 很大);
(2)数据噪音;
(3)有限的训练数据。

a.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一.随着学习的进行, BP算法使权值可能收敛过于复杂的决策面,并至极致.
b.权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.

过拟合的解决办法:

1.权值衰减.
在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,避免weight decay,从而使学习过程向着复杂决策面的反方向偏
2.适当的stopping criterion
3.验证数据
一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差.Typically 30% of training patterns;Validation set error is checked each epoch;Stop training if validation error goes up
4.Cross-validation with some patterns
交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重
k-fold交叉方法:
把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例;每次实验中,使用上面讨论的交叉验证过程来决定在验证集合上取得最佳性能的迭代次数n*,然后计算这些迭代次数的均值,作为最终需要的迭代次数。
5. 减少特征
人工选择,预留一些特征
利用算法选取一些比较好的特征
6. 正则化
这里有点疑问,正则化是为了防止过拟合还是为了解决过拟合。对部分无用的feature,定义其parameter(p3,p4)非常大,这样会导致训练结果w3,w4非常小,几乎为0,降低模型复杂度。这里也有个问题就是lamba很大会导致所有的wi都为0。矩阵分解中经常会用到。

版权声明:本文为博主原创文章,未经博主允许不得转载。

机器学习中的过拟合问题以及解决方案

笔者希望该笔记能够记录每个机器学习算法的过拟合问题。 过拟合问题举例 右图在训练数据上拟合完美,但是预测第11个时候, 左图虽然拟合不完全,但是更合理;右图的-953,误差极大。 ...
  • sinat_26917383
  • sinat_26917383
  • 2016年06月08日 20:24
  • 3410

机器学习—过拟合overfitting

今天在知乎上看到一个问题:人脑有海量的神经元(参数),为什么没有过拟合?面对各个网友的回答,突然发现自己对于过拟合的概念似乎理解的不是很透彻,或者说之前就没有完全理解透。其中有个人这么说“样本少fea...
  • Dream_angel_Z
  • Dream_angel_Z
  • 2015年10月04日 20:31
  • 4604

机器学习关于过拟合和正则化的笔记

原文链接:http://www.cnblogs.com/jianxinzhou/p/4083921.html 1. The Problem of Overfitting 1 还是来看预测...
  • zwlq1314521
  • zwlq1314521
  • 2016年01月14日 17:38
  • 1901

机器学习中过拟合问题分析及解决方法

机器学习中过拟合问题分析及解决方法表现:在训练集上的误差特别小,在测试集上的误差特别大。 原因:模型过于复杂,过分拟合数据噪声和outliers(离群值). 解决方法: 1、正则化。模型中添加先...
  • qq_23617681
  • qq_23617681
  • 2016年05月20日 22:31
  • 637

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决

第三讲-------Logistic Regression & Regularization 本讲内容: Logistic Regression =====================...
  • liugallup
  • liugallup
  • 2016年03月08日 21:30
  • 762

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

原文:http://blog.csdn.net/abcjennifer/article/details/7716281   本栏目(Machine learning)包括单参数的线性回归、多参数的...
  • u012641018
  • u012641018
  • 2016年08月05日 14:22
  • 398

Standford机器学习 逻辑回归(Logistic Regission)以及过拟合问题解决(Regularization)

1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)(0叫做负类,1叫做正...
  • usingnamespace_std
  • usingnamespace_std
  • 2013年05月07日 15:45
  • 8093

Standford机器学习 逻辑回归(Logistic Regission)以及过拟合问题解决(Regularization)

转自http://blog.csdn.net/jackie_zhu/article/details/8895270#comments 1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良...
  • super_ozman
  • super_ozman
  • 2015年09月22日 18:19
  • 539

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学...
  • eastgld
  • eastgld
  • 2014年04月13日 21:49
  • 528

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学...
  • android_asp
  • android_asp
  • 2013年08月21日 18:03
  • 1306
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习过拟合问题
举报原因:
原因补充:

(最多只允许输入30个字)