特征筛选实践-------过滤法

IVHHH

已于 2022-04-21 10:51:47 修改

阅读量3.3k

点赞数 3

分类专栏：笔记文章标签：机器学习算法 python 数据分析人工智能

于 2021-02-09 11:29:57 首次发布

本文链接：https://blog.csdn.net/weixin_41187013/article/details/113754368

版权

前言

在机器学习项目的数据集中，特征间的高相关、特征与标签的低相关或不相关、特征本身的信息量以及特征数量等因素都会对模型的效果产生影响，特征筛选的目的是保留对预测有贡献的特征，删除冗余或无用特征。特征选择方法分为三大类，分别为过滤法（Filter）、包裹法（Wrapper）、嵌入法（Embedding）；本文仅研究过滤法，过滤法由可以分为两种，直接使用某个标准对每个特征分别打分，然后根据打分直接用阈值过滤特征；和衡量每个特征与响应变量之间的关系，再根据得分扔掉不好的特征。

本文基于实践流程的思路，分三个步骤对数据集进行筛选，其中每一步都基于前一步的结果进行。

第一步：根据特征自身统计特性筛选

是一个特征的初筛，目的是剔除信息量过小的特征。其中连续型特征通过方差来筛选，方差过小的特征过于平稳，对模型预测的贡献度微乎其微；类别型特征通过异众比率来筛选，剔除绝大多数值都属于同一类别的特征。表中阈值仅供参考。

数据类型	筛选方法	阈值
连续性数据	方差	大于0.01
类别型数据	异众比率	大于0.05

第二步：根据特征与标签的相关性筛选

数据集中的特征都是为预测标签而存在，因此特征与标签的相关性就很重要，也可以作为特征筛选的一种方法。根据数据类型的不同，可以将特征与标签的相关性检验分为四种方法，见下表，其中阈值仅供参考：

数据一类型	数据二类型	计算方法	衡量指标	选择阈值
连续型	连续型	皮尔森相关系数	r	大于\|0.3\|
连续型	二分类	独立样本t检验	p	小于0.05
连续型	多分类	单因素方差分析	p	小于0.05
类别型	类别型	卡方检验	p	小于0.05