机器学习中特征选择方法

最新推荐文章于 2024-04-22 20:12:23 发布

机器不学习我学习

最新推荐文章于 2024-04-22 20:12:23 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习特征选择

本文链接：https://blog.csdn.net/AugustMe/article/details/100153989

版权

机器学习专栏收录该内容

32 篇文章 8 订阅

订阅专栏

机器学习 = 数据预处理 + 模型训练；
数据预处理：包括特征提取，特征表示；
模型训练：训练的策略，训练的模型，算法等一套流程。

一：先说一下特征选择和降维
特征选择和降维有着相似点，但是本质上是不同的。
两者都是试图减少特征数据集中的属性的数目，但是两者所采用的方式却不同；

降维的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间；而特征选择的方法是从原始数据集中选择子集，是一种包含关系，没有更改原始的特征空间。
降维的方法，在前面的博客中提到了比较常用的PCA和SVD。
https://blog.csdn.net/AugustMe/article/details/96604030
https://blog.csdn.net/AugustMe/article/details/96901767

二：特征选择的目标（好处）
1，提高预测的准确性
2，构造更快，消耗更低的预测模型
3，能够对模型有更好的理解和解释

三：特征选择的方法
1，过滤式（filter）
思想：对每一维特征进行打分，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。
主要的方法：Chi-squared test (卡方检验)
information gain（信息增益）
correlation coefficient scores（相关系数）

2，包裹式（wrapper）
思想：将子集的选择看作一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他组合进行比较。这样就子集的选择看作一个优化问题，这里有很多优化算法可以解决，尤其是一些启发式的优化算法：PSO，GA等
主要方法：recursive feature elimination ( RFE ，递归特征消除法)
通过处理越来越少的特征集合来递归的选择特征。
首先，评估器在初始的特征集合上面进行训练并且每一个特征的重要程度是通过一个诸如sklearn里的 coef_ 属性或者 feature_importances_ 属性来获得。然后，从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止。
在这里插入图片描述
3，嵌入式（embedded）
思想：在模型既定的情况下学习出对提高模型准确性最好的属性。
在确定模型的过程中，挑选出那些对模型训练有重要意义的属性。
主要方法：正则化，岭回归

四：最后说一下特征选择和特征提取
特征选择不同于特征提取，我是这么理解的，首先从整理数据集，然后到特征提取，再到特征选择，从而进行模型训练，最后评估。

参考和引用：
https://baijiahao.baidu.com/s?id=1630751741001537673&wfr=spider&for=pc
https://www.cnblogs.com/bjwu/p/9103002.html
https://blog.csdn.net/kebu12345678/article/details/78437118

仅用来个人学习和分享，如若侵权，留言立删。

尊重他人知识产权，不做拿来主义者！

喜欢的可以关注我哦QAQ，

你的关注和喜欢就是我write博文的动力。

机器不学习我学习

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习中特征选择方法

机器学习 = 数据预处理 + 模型训练；数据预处理：包括特征提取，特征表示；模型训练：训练的策略，训练的模型，算法等一套流程。一：先说一下特征选择和降维特征选择和降维有着相似点，但是本质上是不同的。两者都是试图减少特征数据集中的属性的数目，但是两者所采用的方式却不同；降维的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间；而特征选择的方法是从原始数据...
复制链接

扫一扫