特征工程 -- 特征选择

Oo_Amy_oO

已于 2023-12-29 14:14:33 修改

阅读量352

点赞数 9

文章标签：数据分析数据挖掘算法

于 2023-12-25 15:15:59 首次发布

本文链接：https://blog.csdn.net/Oo_Amy_oO/article/details/135200668

版权

特征选择是特征工程中的一个重要步骤，它的目的是从原始特征中选择出对模型建立和预测具有重要影响的特征子集，以达到提高模型精确度，减少运行时间的效果。

特征选择可以根据选择的方式进行分类，常见的分类包括：

过滤式特征选择(Filter)：该方法是在特征选择前不依赖于具体的分类器或回归模型，而是根据特征本身的特性进行选择。按照发散性或相关性对各个特征进行评分，设定阈值或者待选择特征的个数进行筛选。常见的方法有：
- Pearson相关系数
- 卡方验证
- 互信息和最大信息系数
- 距离相关系数
- 方差选择法
封装式特征选择(Wrapper)：该方法通过试探性地选择特征并交叉验证，以找到对模型性能有最大影响的特征子集。根据目标函数(往往是预测效果评分)，每次选择若干特征，或者排除若干特征。常见的方法有：
- 递归特征消除(RFE)
- 基于遗传算法的特征选择
嵌入式特征选择(Embedded)：该方法是将特征选择过程融入到模型训练中，通过学习过程自动选择出各个特征的权值系数，根据系数从大到小选择特征(类似于Filter，只不过系数是通过训练得来的)。常见的方法：
- L1正则化
- 决策树、随机森林的特征重要性

特征选择的步骤一般包括以下几个：

最后需要注意的是，特征选择是一个迭代的过程，可能需要多次尝试不同的方法和参数，以获取最优的特征子集。

关注