特征选择

从给定的特征集合中选择出相关特征子集的过程,称为特征选择。它是”数据预处理“中重要的一步。scikit-learn 机器学习库提供了两种不同的特征选择方法:RFE和决策树

1、为什么要进行特征选择?

1) 解决维度灾难的问题,降低运算量,使模型泛化能力更强,减少过拟合

缩短模型训练时间。减少数据,意味着算法训练更快。减少冗余数据,意味着根据噪声做出决策的机会更少。

特征选择与降维处理是处理高维数据的两大技术。

2)去除不相关特征可以降低学习难度。增强对特征和特征值之间的理解。

3)提高准确度

减少误导性数据,意味着将会提高模型准确度。

2、 无关特征与冗余特征

1)无关特征:与当前学习任务无关

2)冗余特征:它们所包含的信息能从其他特征中推演出。

如:特征中已经有长和宽两个特征了,那么面积就是一个冗余特征。冗余特征大多数情况下不起作用,但是有时可以降低学习的难度。见《西瓜书》P247

3、特征选择的方法:

1)常见的特征选择方式(操作层面上):

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值