特征选择和特征提取

特征选择和特征提取是数据预处理的关键步骤,旨在降低维度并提高模型效率。特征提取通过创建新属性改变特征空间,如PCA和SVD;而特征选择则从原始特征中筛选子集,如卡方检验、信息增益和相关系数。目标是构建简洁且准确的模型,优化包括过滤法、包裹法和嵌入法在内的不同策略。降维有助于提升预测准确性、模型理解和运行速度。
摘要由CSDN通过智能技术生成

特征选择(feature selection)和特征提取(Feature extraction)都属干降维(Dimension reduction)
这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目:但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
二、特征提取的主要方法:
PCALDA SVD等。(SVD本质上是一种数学的方法,它并不是一种什么机器学习算法,但是它在机器学习领域里有非常广泛的应
用)
三、特征选择的方法
1、Filter方法
其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。

主要的方法有:Chi-sauared test(卡方检验),ID3(信息增益),correlation coefficientscores(相关系数)
2、Wrapper方法:
其主要思想是:将子集的选择看作是一个搜索寻优问题。生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GAPSODEABC等,详见“优化算法一-人工蜂群算法(ABC)”,“优化算法–粒子群算法(PSO)”。

主要方法有:recursive featureeliminationalgorithm(递归特征消除算法)
3、Embedded方法
其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。
主要方法:正则化。如岭回归就是在基本线性回归的过程中加入了正则项。
三、特征选择的目标
引用白呈军《数学之美》的一句话:一个正确的数学模刑应当在形式上是简单的。构造机器学习的模刑的目的是希望能够从原始的特
征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应该能够对问题有更好的解释,所以特征选择的目标大致如下
提高预测的准确性
构造更快,消耗更低的预测模型能够对模型有更好的理解和解释

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值