特征工程(feature engineering)

今天我们聊一聊特征工程方面的知识,随着大数据时代的到来,特征工程发挥着越来越重要的作用。那么什么是特征工程呢,简单说,就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。一般来说,特征工程大体上可以分为三个方面,一是特征构造,而是特征选择,三是特征生成。三个方面当中,最重要的是特征选择,我们先简单讲一下,特征构造和特征生成,后面再将特征选择。当然一个特征工程当中并不一定涉及到这三个方面。那么接下来。先说特征构造。顾名思义,特征构造就是构造出来新的特征,一般都是通过对原有的特征进行四则运算产生新的特征。比如原来的特征是x1和x2,那么x1+x2就是一个新的特征,或者当x1大于某个数c的时候,就产生一个新的变量x3,并且x3=1,当x1小于c的时候,x3=0,所以这样看来呢,可以按照这种方法构造出很多特征,这个就是构造。我们再来说说特征生成,特征生成和特征构造有些相似,但是还是存在一些区别的,特征生成的话,比如主成分分析或者因子分析,都可以对原有数据进行特征生成,比如卷积神经网络的卷积层就是一个特征生成的过程,一张图片,经过卷积的不断扫描,就会把原始图片里边的好多特征逐步提取出来,这个就是特征生成。再如通过主成分分析对原始数据进行降维,那么降维后,每个主成分其实就代表一个新的特征,同样因子分析也具有这方面的功能,通过因子分析可以把潜在变量后面的潜在因子找出来。通过这几个例子,大家可以逐渐感觉到特征构造和特征生成会有一些区别,但是也有一定的联系。实际上,

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值