特征选择、特征降维和特征提取到底有什么区别和联系？这篇文章一次性给你讲清楚！

强盛机器学习

已于 2024-02-20 17:18:32 修改

阅读量2k

点赞数 20

文章标签： matlab 人工智能回归数据预处理

于 2024-02-20 17:17:46 首次发布

本文链接：https://blog.csdn.net/QSJIQIXUEXI/article/details/136194718

版权

本文详细解释了特征选择、特征降维和特征提取在IT技术中的作用，包括各种方法如最大互信息系数、PCA、t-SNE等，并展示了深度学习在特征提取中的应用，如CNN-LSTM-Attention和DBN-ELM。作者强调了它们的区别和在实际项目中的应用价值。

摘要由CSDN通过智能技术生成

4.支持向量机递归特征消除(SVM_RFE)：

③CNN-BiGRU-Attention：

④DBN-ELM：

四、总结

以上完整代码获取

不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系，在实际操作中也经常容易搞混。既然用了，就要知其然还要知其所以然，今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别！

首先，从通俗易懂和标准学术两种角度给大家详细解释！

一、特征选择：

通俗易懂版：想象一下，你在拍照时会选择最能代表场景的角度，去除不必要的背景，这样的照片更能吸引人。特征选择也是同样的道理，它的目标是从所有的特征中选出最重要的那些，去除不相关或冗余的特征。这样做的好处是可以让模型更专注于那些有用的信息，提高模型的效率和性能。

学术专业版：特征选择是从原始数据集中选择出最有用的特征子集的过程。比如你现在有50个特征，可以通过模型来选择20个最有用的！目的是去除不相关（噪声）或冗余的特征，从而提高模型的性能，减少计算成本，并提高模型的可解释性。特征选择方法大致可以分为三类：过滤法（Filter Methods）、包裹法（Wrapper Methods）、和嵌入法（Embedded Methods）。

常用方法：

1.最大互信息系数(MIC)：

属于过滤法，最大互信息系数能够计算各个特征之间的最大互信息系数，进而根据最大互信息系数筛选最优特征。

2.互信息(MI)：

属于过滤法，与最大互信息系数类似，计算各个特征之间的最大互信息，进而根据互信息筛选最优特征。

3.最大相关最小冗余算法(mRMR)：

属于过滤法，用于在原始特征集合中找到与最终输出结果相关性最大，但是特征彼此之间相关性最小的一组特征。

4.支持向量机递归特征消除(SVM_RFE)：

属于包裹法，反复构建模型并选择最好或最差的特征（基于模型的权重），放弃选定的特征并在剩余的特征上重复这个过程，直到所有特征都遍历完毕。

二、特征降维：

通俗易懂版：如果说特征选择是从照片中剪掉不需要的部分，那么特征降维就像是用一种技术手段，将照片压缩成更小的文件，同时尽量保留原来的信息。特征降维是通过数学方法减少特征的数量，将很多特征合并成较少的新特征。这不仅减少了数据的复杂度，还有助于避免过拟合，提高模型的泛化能力。常见的特征降维方法有PCA（主成分分析）。

学术专业版：特征降维是减少数据集中特征数量的过程，但它是通过创建新的特征组合或投影，而不是选择原始特征的子集。这些新特征是原始特征的转换或组合，旨在保留数据的大部分重要信息。常见的特征降维方法包括主成分分析（PCA）、线性判别分析（LDA）和t-分布随机邻域嵌入（t-SNE）等。特征降维通常用于数据可视化、降低存储需求、减少计算时间以及有时还可以帮助改善模型性能。

常用方法：

1.主成分分析(PCA)：

通过线性变换将原始数据转换到新的坐标系统中，变换后的每个坐标轴（主成分）依次具有最大的方差。

2.核主成分分析(KPCA)：

扩展了传统的主成分分析（PCA）方法，使其能够有效处理非线性数据结构。

3.t-分布随机邻域嵌入(t-SNE)：

通过优化相似度的概率分布来寻找数据在低维空间的最佳表示，能够在低维空间中保持高维数据点之间的相对距离，非常适合于数据可视化。

三、特征提取：

通俗易懂版：特征提取就像是从一堆杂乱无章的信息中提炼出精华，创造出新的特征。它通过对原始数据进行变换或组合，生成一组“新”的特征，这些新特征能更好地代表数据的核心信息。特征提取在处理图像、文本等复杂数据时特别有用，因为直接处理这些数据往往不易于模型理解和学习。

学术专业版：特征提取是将原始数据转换或映射到新的特征空间的过程。这个过程涉及到从原始数据中提取信息并将其转化为更有效的表示形式（即，特征集）。特征提取旨在减少原始数据集的维度，同时保留关于原始数据集的尽可能多的重要信息。这种方法在图像处理、文本分析和语音识别等领域尤其常见。特征提取可以是手动设计特征，也可以通过自动化的方法（如通过深度学习模型）来实现。

常用的方法有：

1.信号处理层面

一般有基于频域的信号特征提取、基于时域的信号特征提取等等，一般可以用来做故障诊断等研究~

需要代码的小伙伴可留言，我会尽快推出~

2.深度学习层面

一般通过CNN提取时间层面特征，大家熟知的CNN-LSTN-Attention就是通过这种方法实现，每个卷积层通过一系列的卷积核滤波器来捕捉数据的局部特征，然后使用池化层（如最大池化）来降低特征的空间维度，增强模型的泛化能力。

另外还有DBN深度置信网络，DBN由多层受限玻尔兹曼机（RBM）堆叠而成。每个RBM层都学习数据在给定层的特征表示时的概率分布，能够自动发现复杂的、非线性的特征，这些特征往往是手工特征提取方法难以捕捉的。

以分类预测为例：

①CNN-LSTM-Attention：

CNN用于捕捉数据中的局部模式和特征；LSTM用于处理数据捕捉长期依赖关系；注意力机制提供了对关键信息的聚焦能力，从而提高预测的准确性。

②DBN-SVM：

用DBN进行特征提取，将提取后的特征放入SVM进行分类实现组合预测。

以回归预测为例：

③CNN-BiGRU-Attention：

CNN用于捕捉数据中的局部模式和特征；BiGRU用于处理数据捕捉长期依赖关系；注意力机制提供了对关键信息的聚焦能力，从而提高预测的准确性。

④DBN-ELM：

用DBN进行特征提取，将提取后的特征放入SVM进行分类实现组合预测。

四、总结

特征选择关注于从原始特征中选择最重要的子集，不改变特征本身。

特征降维通过创建新的特征组合减少特征的数量，以降低问题的维度。

特征提取从数据中提取新的特征，这些特征是原始数据的高效表示。

以上完整代码获取

点击下方小卡片，找到对应文章，后台回复关键字即可~

其他更多需求或想要的代码均可点击下方小卡片后台私信，看到后会秒回~

强盛机器学习

关注

20
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
特征选择、特征降维和特征提取到底有什么区别和联系？这篇文章一次性给你讲清楚！

不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系，在实际操作中也经常容易搞混。既然用了，就要知其然还要知其所以然，今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别！
复制链接

扫一扫