数据挖掘实战（二）—特征选择_数据挖掘的数据特征选择-CSDN博客

本文链接：https://blog.csdn.net/weixin_41940752/article/details/98469595

本文探讨了特征工程在机器学习中的重要性，特别是特征选择在减少冗余、提升模型性能上的作用。介绍了特征选择的过滤式、封装式和嵌入式方法，包括卡方检验、信息增益、互信息、相关系数等评估标准，以及L1正则化、随机森林等策略。特征选择旨在选取最具影响力的特征，以改善模型效率和解释性。

摘要由CSDN通过智能技术生成

本文参考木东居士公众号文章《特征工程系列：特征筛选的原理与实现》
数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。
特征工程又包含了Feature Selection（特征选择）、Feature Extraction（特征提取）和Feature construction（特征构造）等子问题，本章内容主要讨论特征选择相关的方法及实现。
在实际项目中，我们可能会有大量的特征可使用，有的特征携带的信息丰富，有的特征携带的信息有重叠，有的特征则属于无关特征，如果所有特征不经筛选地全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的准确性。因此，我们需要进行特征筛选，排除无效/冗余的特征，把有用的特征挑选出来作为模型的训练数据。

一、相关概念介绍
1. 按重要性分类
**相关特征：**对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；
**无关特征：**对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；
**冗余特征：**不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出；

2.特征选择的目的
对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题。如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性。

3.特征选择的原则
获取尽可能小的特征子集，不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等特点。

二、特征选择方法
1.Filter（过滤式）
先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。相当于先对特征进行过滤操作，然后用特征子集来训练分类器。
**主要思想：**对每一维特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该特征的重要性，然后依据权重排序。
主要方法：
Chi-squared test（卡方检验）
Information gain（信息增益）
Correlation coefficient scores（相关系数）
优点：运行速度快，是一种非常流行的特征选择方法。
缺点：无法提供反馈，特征选择的标准/规范的制定是在特征搜索算法中完成，学习算法无法向特征搜索算法传递对特征的需求。另外，可能处理某个特征时由于任意原因表示该特征不重要，但是该特征与其他特征结合起来则可能变得很重要。

实现一：去掉取值变化小的特征
该方法一般用在特征选择前作为一个预处理的工作，即先去掉取值变化小的特征，然后再使用其他特征选择方法选择特征。考察某个特征下，样本的方差值，可以认为给定一个阈值，抛弃哪些小于某个阈值的特征。
1）实现原理
离散型变量：
假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。
连续型变量：需要将连续变量离散化之后才能用。
而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。

实现二：单变量特征选择
单变量特征选择方法独立的衡量每个特征与响应变量之间的关系，单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。该方法简单，易于运行，易于理解，通常对于理解数据有较好的效果（但对特征优化、提高泛化能力来说不一定有效）；这种方法有许多改进的版本、变种。
（1）Pearson相关系数（Pearson Correlation）
使用条件：线性相关性、连续型特征
皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性（即此方法使用的前提假设是变量间具有线性相关性，如果是非线性关系，见下文的熵增益法）。
1）原理介绍
在这里插入图片描述
就是用x_i、x_j的协方差除以x_i的标准差和x_j的标准差，可以看成一种剔除了两个变量量纲影响、标准化后的特殊协方差。
协方差是度量各个维度偏离其均值的程度，协方差的值为正值时说明两者是正相关，否则是负相关的。
结果的取值区间为[-1，1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关，绝对值表示相关性的强度。
标准差也称均方差，是方差的算术平方根，能反映一个数据集的离散程度。
2）主要用于连续型特征的筛选，不适用于离散型特征的筛选。
3）优缺点
优点：
相关系数计算速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。Pearson相关系数能够表征丰富的关系，符合表示关系的正负，绝对值能够表示强度。
缺点：
相关系数作为特征排序机制，它只对线性关系敏感，如果关系是非线性的，即便两个变量具有一一对应的关系，相关系数系数也可能会接近0。
（2）互信息和最大信息系数（Mutual information and maximal information coefficient）
如果变量不是独立的,那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的 Kullback-Leibler 散度来判断它们是否“接近”于相互独立。
1）互信息方法
使用前提假设：特征间相互独立、离散型特征
熵H(Y)与条件熵H(Y|X)之间的差称为互信息，互信息与条件熵之间的关系：
在这里插入图片描述
其实，这就是ID3决策树的特征选择规则。
互信息法也是评价定性自变量对定性因变量的相关性的，但是并不方便直接用于特征选择：
它不属于度量方式，也没有办法进行归一化，在不同的数据上的结果无法做比较。