特征工程

特征工程

属于数据科学中最有创造力的一部分。举一个简单的例子,判别胖与不胖的二分类问题。输入数据为X:身高和体重,标签为Y:胖和不胖。显然不能单纯的根据体重来判断一个人胖不胖,针对这个问题,一个经典的特征工程是BMI指数:BMI=weight/(height**2)。所以说特征工程就是通过X,创造出新的X‘。特征工程的基本操作有衍生(升维),筛选(降维)。其目的是最大限度的从原始数据中提取特征以供算法和模型使用
特征提取图

Kaggle上有一句非常经典的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程图:

特征工程图

特征处理是特征工程的核心部分,特征处理包括数据预处理,特征选择,降维等。

数据预处理:
通过对特征的提取,在未处理的情况下特征可能会出现以下问题。
1)不属于同一量纲,即特征的规格不一样不能放在一起比较。
2)信息冗余,对于某些定量特征,需要将定量的区间转换为特值的格式
3)定性特征不能直接使用,某些机器学习方法只能接受定量特征的输入,那么需要将定性特征转换为定量特征。
4)存在缺失值。
5)信息利用率低。

特征选择:
当数据预处理完后,我们需要选择有意义的特征输入机器学习的算法和模型中进行训练。若特征发散,则这个特征对于欧样本的区分无意义,要选取与目标的相关性强的特征。
1)过滤法(Filter):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数来选择特征。
2)包装法(Wrapper):根据目标函数训练出来的结果,每次选择或者排除若干特征。
3)集成法(Embedded):先使用某些机器学习算法和模型训练,将得到的各个特征的权值系数从大到小选择特征。

降维:
当特征选择完后,现今一般提取到的特征矩阵比较大,从而计算量比较大,导致训练时间长的问题。常见的降维方法有主成分分析法(PCA)和线性判别分析(LDA),二者有很多的相似性,本质都是将原始样本映射到维度更低的样本空间中。但二者的映射目标不一样:PCA映射后样本具有更大的发散性,LDA映射后样本具有更好的分类性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值