机器学习中特征选择方法

机器学习 = 数据预处理 + 模型训练;
数据预处理:包括特征提取,特征表示;
模型训练:训练的策略,训练的模型,算法等一套流程。

一:先说一下特征选择和降维
特征选择和降维有着相似点,但是本质上是不同的。
两者都是试图减少特征数据集中的属性的数目,但是两者所采用的方式却不同;

降维的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始数据集中选择子集,是一种包含关系,没有更改原始的特征空间。
降维的方法,在前面的博客中提到了比较常用的PCA和SVD。
https://blog.csdn.net/AugustMe/article/details/96604030
https://blog.csdn.net/AugustMe/article/details/96901767

二:特征选择的目标(好处)
1,提高预测的准确性
2,构造更快,消耗更低的预测模型
3,能够对模型有更好的理解和解释

三:特征选择的方法
1,过滤式(filter)
思想:对每一维特征进行打分,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
主要的方法:Chi-squared test (卡方检验)
information gain(信息增益)
correlation coefficient scores(相关系数)

2,包裹式(wrapper)
思想:将子集的选择看作一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他组合进行比较。这样就子集的选择看作一个优化问题,这里有很多优化算法可以解决,尤其是一些启发式的优化算法:PSO,GA等
主要方法:recursive feature elimination ( RFE ,递归特征消除法)
通过处理越来越少的特征集合来递归的选择特征。
首先,评估器在初始的特征集合上面进行训练并且每一个特征的重要程度是通过一个诸如sklearn里的 coef_ 属性 或者 feature_importances_ 属性来获得。 然后,从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤,直到最终达到所需要的特征数量为止。
在这里插入图片描述
3,嵌入式(embedded)
思想:在模型既定的情况下学习出对提高模型准确性最好的属性。
在确定模型的过程中,挑选出那些对模型训练有重要意义的属性。
主要方法:正则化,岭回归

四:最后说一下特征选择和特征提取
特征选择不同于特征提取,我是这么理解的,首先从整理数据集,然后到特征提取,再到特征选择,从而进行模型训练,最后评估。

参考和引用:
https://baijiahao.baidu.com/s?id=1630751741001537673&wfr=spider&for=pc
https://www.cnblogs.com/bjwu/p/9103002.html
https://blog.csdn.net/kebu12345678/article/details/78437118

仅用来个人学习和分享,如若侵权,留言立删。

尊重他人知识产权,不做拿来主义者!

喜欢的可以关注我哦QAQ,

你的关注和喜欢就是我write博文的动力。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器不学习我学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值