特征工程之特征筛选

最新推荐文章于 2024-04-22 17:20:57 发布

SkullSky

最新推荐文章于 2024-04-22 17:20:57 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：特征筛选 RFE 降维单变量特征选择 L1正则

本文链接：https://blog.csdn.net/SkullSky/article/details/107472698

版权

本文介绍了特征选择的重要性和基本原则，如波动性和相关性，并详细讲解了移除低方差特征、单变量特征选择、递归式消除特征（RFE）以及基于L1正则和树模型的特征选取方法。这些方法旨在降低高维数据的计算复杂度，提高模型性能。

摘要由CSDN通过智能技术生成

从现有的m个特征中选出n个特征(n<=m)，降低特征维度减少计算量的同时，使模型效果达到最优。

在实际业务中，用于模型中的特征维度往往很高，几万维。如一些CTR预估问题中，特征维度高达上亿维，维度过高会增大模型计算复杂度。但实际情况是，并不是每个特征对模型的预测都是有效果的，所以需要去除一些不必要的特征，从而降低模型计算的复杂度。

如果方差很小，说明该特征的取值很稳定，可以近似理解成该特征的每个值都接近。这样的特征对模型几乎是没有效果，不具备区分度的。比如年龄这个特征，都是20岁左右大小的。反之，方差越大，则特征对模型的区分度越好。

指移除方差低于指定阈值的特征，即特征值变动幅度小于某个范围的特征。这一部分特征的区分度较差，可以移除。这里的阈值需要根据具体的业务场景进行设定。

from sklearn.feature_selection import VarianceThreshold
X = [[0, 2, 1], [1, 1, 0], [2, 3, 0], [3, 6, 1], [4,

关注