特征选择（区别于特征提取）

最新推荐文章于 2024-05-31 15:12:14 发布

陈知鱼

最新推荐文章于 2024-05-31 15:12:14 发布

阅读量8.7k

点赞数 10

分类专栏：特征选择文章标签：特征选择特征提取评价函数搜索过程

本文链接：https://blog.csdn.net/weixin_42926076/article/details/85114053

版权

特征选择专栏收录该内容

2 篇文章 0 订阅

订阅专栏

特征选择和特征提取的异同

先来看一张特征工程的图。

特征选择和特征提取都是特征工程下，对于多特征的预处理。
其共同的目的是：

提高模型预测的准确率
减少模型运行的时间，提高学习模型的性能
降低维度，更好地理解生成数据的底层流程
降低储存的成本

特征提取和特征选择统称为降维。（Dimension Reduction）（针对于the curse of dimensionality(维度灾难)，都可以达到降维的目的。）
看一下，以下的图片：
在这里插入图片描述
用数学的话来解释：
特征选择后的特征是原来特征的一个子集。
特征提取后的新特征是原来特征的一个映射。

用通俗的话来解释他们的不同：

特征提取是从杂乱无章的世界中，去到更高层的世界去俯瞰原始世界，你会发现很多杂乱无章的物理现象中背后暗含的道理是想通的，这时候你想用一个更加普世的观点和理论去解释原先的理论，这个是特征提取要做的事情。简而言之，特征提取即为加工特征，其对我们处理的问题更加高效。
而你仍呆在原始世界中，只是想对现有的“取其精华，去其糟粕”，这个是所谓特征选择。只是对现有进行筛选。简而言之，特征选择即为选取特征集合中的特征元素，提高模型的性能。

打比方来说：
有长、宽两个特征，特征选择是根据模型的目标来选择长这个特征或者选择宽这个特征，而特征提取是把长和宽两个特征提取成面积这个“新特征”。

接下来回归主题，讲讲特征选择。
参考文献：[Peng, H.Long, F.Ding, C.Feature selection for classification.1997]

特征选择

在这里插入图片描述

产生过程（搜索过程）

（或可理解为搜索特征子集的过程）。
完全式/穷举式：根据评价函数从2^n个候选子集中选出最优的。能够找到最优解，但其缺点是它会带来巨大的计算开销，尤其当特征数比较大的时候，计算时间很长。

序列式：它避免了简单的穷举式的搜索，在搜索过程中依据某种次序（比如向前、向后）向当前特征子集中添加或删除特征，从而获得优化过的特征子集。典型的算法有：向前向后搜索、浮动搜索、双向搜索等。算法的优点是比较容易实现，计算的负责度相对较小（时间复杂度为O（2^n）），但容易局部最优。

随机式：从某个候选特征子集开始，依照一定的启发式信息和规则逼近全局最优解（注意不是最优解，而是逼近最优）。例如：遗传算法、模拟退火算法、粒子群算法和免疫算法等。

评价函数

距离度量（欧氏距离等）
信息度量（信息增熵）
依赖性度量（相关性）——特征K与C类的相关性大于特征Y与C的相关性，则特征K优先于特征Y。举例子来说，喉结这个特征与男性类的相关性大于身高这个特征，则喉结特征优先于特征Y。
一致性度量（没搞明白，待续）
分类错误率

特征子集的评价标准

生成过程（搜索过程）+不同的评价函数=特征选择方法

停止准则

产生过程（搜索过程）对于停止准则：

达到要选择特征子集元素的个数
达到迭代的次数

评价函数对于停止准则：

增加或删除特征，都不能有更好的效果
达到了评价中最优的子集

问题和思考

坐标横竖轴表示不同的特征，条形图的高度为统计不同样本的数量，散点图的点和小圆圈表示样本，以下问题皆如此
在这里插入图片描述
结论一：通过添加可能冗余的变量，可以降低噪声，从而实现更好的类分离。

在这里插入图片描述
结论二：

完全相关的变量确实是冗余的；
非常高的变量相关性(或反相关性)并不意味着没有变量互补性。2. 非常高的变量相关性(或反相关性)并不意味着没有变量互补性。

在这里插入图片描述
结论三：

当与其他变量一起使用时，完全无用的变量本身可以提供显著的性能改进；
无用的变量+无用的变量=有用的变量。

陈知鱼

关注

10
点赞
踩
63

收藏

觉得还不错? 一键收藏
0
评论
特征选择（区别于特征提取）

特征选择和特征提取的异同先来看一张特征工程的图。特征选择和特征提取都是特征工程下，对于多特征的预处理。其共同的目的是：提高模型预测的准确率减少模型运行的时间，提高学习模型的性能降低维度，更好地理解生成数据的底层流程降低储存的成本特征提取和特征选择统称为降维。（Dimension Reduction）（针对于the curse of dimensionality(维度灾难)，都...
复制链接

扫一扫

专栏目录