特征选择和特征提取

最新推荐文章于 2024-06-27 10:37:12 发布

林木木子

最新推荐文章于 2024-06-27 10:37:12 发布

阅读量4.7k

点赞数 4

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/qq_46047782/article/details/125392552

版权

特征选择和特征提取是数据预处理的关键步骤，旨在降低维度并提高模型效率。特征提取通过创建新属性改变特征空间，如PCA和SVD；而特征选择则从原始特征中筛选子集，如卡方检验、信息增益和相关系数。目标是构建简洁且准确的模型，优化包括过滤法、包裹法和嵌入法在内的不同策略。降维有助于提升预测准确性、模型理解和运行速度。

摘要由CSDN通过智能技术生成

特征选择(feature selection)和特征提取(Feature extraction)都属干降维(Dimension reduction)
这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目:但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。
二、特征提取的主要方法:
PCALDA SVD等。(SVD本质上是一种数学的方法，它并不是一种什么机器学习算法，但是它在机器学习领域里有非常广泛的应
用)
三、特征选择的方法
1、Filter方法
其主要思想是:对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。

主要的方法有:Chi-sauared test(卡方检验)，ID3(信息增益)，correlation coefficientscores(相关系数)
2、Wrapper方法:
其主要思想是:将子集的选择看作是一个搜索寻优问题。生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GAPSODEABC等，详见“优化算法一-人工蜂群算法(ABC)”，“优化算法–粒子群算法(PSO)”。

主要方法有:recursive featureeliminationalgorithm(递归特征消除算法)
3、Embedded方法
其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解，其实是讲在确定模型的过程中，挑选出那些对模型的训练有重要意义的属性。
主要方法:正则化。如岭回归就是在基本线性回归的过程中加入了正则项。
三、特征选择的目标
引用白呈军《数学之美》的一句话:一个正确的数学模刑应当在形式上是简单的。构造机器学习的模刑的目的是希望能够从原始的特
征数据集中学习出问题的结构与问题的本质，当然此时的挑选出的特征就应该能够对问题有更好的解释，所以特征选择的目标大致如下
提高预测的准确性
构造更快，消耗更低的预测模型能够对模型有更好的理解和解释