特征降维

维度灾难

首先在机器学习中,如果特征值(也可称之为维度,或feature,或参数)过多,会发生所谓的维度灾难。维度灾难最直接的后果就是过拟合现象,而发生该现象最根本的原因是:

1,维度增加时,有限的样本空间会越来越稀疏。因此模型出现在训练集上表现良好,但对新数据缺乏泛化能力的现象。

如果训练集可以达到理论上的无限个,那么就不存在维度灾难,我们可以用无限个维度去得到一个完美的分类器。训练集样本越少,越应该用少量的特征,如果N个训练样本足够覆盖一个一维的特征空间(区间大小为一个单位),那么 需要N^2个样本去覆盖一个同样密度的二维的特征空间,需要N^3个样本去覆盖三维的特征空间。换句话说,就是训练样本多少需要随着维度指数增长。

2,维度增加时,每个样本数据越来越不可能符合所有维度(特征),这使得大部分样本都变成了噪声。


下面这两篇文章非常非常浅显的探讨了这个问题,绝对不要错过:

http://blog.csdn.net/tanya_girl/article/details/50151183

http://blog.csdn.net/tanya_girl/article/details/50151291


如何判断发生了过拟合

如果模型训练完毕后,发现模型在样本集上表现良好,但在新数据上准确率低于或高于某阈值,可基本判定发生了过拟

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值