特征提取（降维）和特征选择的参考和笔记

最新推荐文章于 2024-03-25 18:44:04 发布

jianuolala

最新推荐文章于 2024-03-25 18:44:04 发布

阅读量2.1k

点赞数 1

文章标签：机器学习 python 数据挖掘

本文链接：https://blog.csdn.net/jianuolala/article/details/125231838

版权

特征降维，从一个维度空间映射到另一个维度空间，特征的维数没有减少，在映射的过程中的特征值也会发生相应的变化。

特征选择是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后不改变值，但是选择后的特征维数肯定比选择前小。

特征降维主要特点是通过一个数学变换进行降维，而特征选择就是从众多特征中剔除不重要的特征，从而保留重要的特征

一、特征选择

通常从两点来考虑：

特征是否发散：如果特征不发散，例如方差接近0，也就是说样本在这个特征上基本没有差异，这个特征对于样本的区分没有什么用
特征与目标的相关性：除移除低方差法外，此处？大多数方法从相关性考虑

1.划分方式-西瓜书

根据西瓜书，需要两个步骤：环节1+环节2

环节1为：子集搜索：包括前向搜索，后向搜索（从完整特征集开始，每次尝试去掉一个特征），双向搜索

环节2：子集评价：方差，相关系数，假设检验，信息熵，目标函数等

环节1+环节2→才是特征选择：过滤、包装、嵌入法

2.特征选择的方法-简介

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者带选择阈值的个数，选择特征。

Wrapper:包装法，根据目标函数（通常是预测效果评分）分词选择若干特征，或者排除若干特征

Embedded：嵌入发，先使用某些机器学习的算法和模型来进行训练，得到各个特征的犬只系数，根据系数从大到小选择，类似filter，但是是通过训练来确定特征的优劣

Wrapper需要建立学习模型，通过模型的性能进行评价特征的优劣

Filter无需利用学习模型，主要依赖评价准者，如相关系数、互信息，信息熵等，如决策树中采用了信息熵的准则，就是filter的一种

3.特征选择方法的具体展开

过滤法

方差选择：计算各个特征方差，选择方差大于阈值的特征。当特征值都是离散变量时，才能用。如果是连续变量，需要将连续变量离散化。可以把它当做特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择

相关系数：计算各特征的pearson相关系数

卡方检验：统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；

互信息法：计算各特征的信息增益

优点：快速，只需要基础统计知识；缺点：特征之间的组合效应难以挖掘

封装法

递归消除特征法：递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，移除平方值最小的那个序号对应的特征，再基于新的特征集进行下一轮训练，直到剩下的特征数满足要求为止。

RFE（recursive feature elimination）通过学习器返回的coef_属性或者feature_importances属性获得每个特征的重要程度。方便手动的特征选择，在元模型去除特征后的数据集上的性能差于原数据集，和方差过滤一样，同样是因为去除了特征中保留的有效信息的原因。

RFECV通过交叉验证来找到最优的特征数量，如果减少特征会造成性能损失，将不除去任何特征。缺陷，计算量大，随着学习器的改变，最佳特征组合也会改变。在REF的基础上对不同的特征组合进行交叉验证，学习器本身不变，通过计算其决策系数之和，最终得到不同特征对于score的重要程度，然后保留最佳的特征组合。其分割方式类似于随机森林中的列上子采样

递归式特征消除：Recursive feature elimination_Font Tian的博客-CSDN博客_递归特征消除

优点：直接面向算法，不需要太多知识。缺点：庞大的搜索空间，需要定义启发式策略；

嵌入法embedded

使用带惩罚项的基模型进行特征选择：比如LR加入正则。通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是L1没有选择到的特征不代表不重要，原因是两个：具有高相关性的特征可能只保留一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。

树模型的特征选择（随机森林、决策树）：训练能够对特征打分的预选模型：randomforest和logistic regression等都能对模型的特征打分，通过打分获得相关性后再训练最终模型。

优点：效果最好速度最快，模式单调，快速并且效果明显。缺点：如何参数设置，需要深厚的背景知识

二、特征提取-降维：

1 线性降维

1.1 PCA 主成分分析

个数确定：贡献率，第i个主成分的方差在全部方差中所占比重，反映第i个主成分所提取的总信息的份额

累积贡献率：前k个主成分在全部方差中所占比重

个数：累积贡献率>0.85