特征工程

特征工程

定义

特征:从原始数据中抽取出来的对预测结果有用的数据

特征工程:用专业的技巧和方法从原始数据中挖掘有用特征(对预测结果有帮助的特征)的过程

意义

  1. 更好的特征意味着只需要简单的模型
  2. 更好的特征意味着更好的结果

常用的特征工程方法

缺失值的处理
  1. 删除缺失值
    如果一个样本或特征中所包含的缺失值超过一定的比例,比如超过特征或者样本的一半,那么这个样本或者特征所包含的信息是有限的,如果我们强行对数据进行填充处理,肯那个会加入过大的人为信息,导致模型的效果大打折扣,这时我们一般选择从数据集中剔除整个样本或者变量,即删除缺失值。

  2. 缺失值填充

  • 回归填充:把缺失值作为变量y,把缺失值已有部分数据作为训练集,寻找跟其相关度最高的变量x建立回归方程,然后把缺失值变量y所在位置对应的x作为预测值,对缺失值进行预测,用预测结果来代替缺失值。
  • 均值填充:寻找与缺失值相关性最大的那个变量把数据分成几组,然后分别计算每个组中缺失值变量的均值,然后把均值填充缺失值的位置,如果找不到相关性比较好的变量,也可以统计变量已有数据的均值,然后来填充缺失值。这种方法会在一定程度上改变数据的分布。
  • 最相似填充法:在数据集中找到跟缺失值最相似的样本,用该样本的值来填充缺失值。
离散(类别)变量的处理

在某些情况下,比如回归建模时,我们通常需要将分类变量量化处理或离散变量哑变量化。

分类变量分为两种:有序分类变量和无序分类变量,在引入模型是我们通常需要对其进行量化处理,转化为离散变量,比如疾病的严重程度轻微,中度,重度,量化后用1,2,3来代替。但无序的分类变量,比如血型A,B,O型,如果我们也用1,2,3表示就不合理了,因为血型之间并不存在递进的关系。

此时我们需要对离散变量进行进一步的处理,即哑变量化。

哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。

哑变量化后,特征就变成了稀疏的了。这有两个好处,一是解决了模型不好处理属性数据的问题,二是在一定程度上也起到了扩充特征的作用。

连续变量的处理

连续变量离散化

在使用某些算法时,我们需要把连续变量转换为离散变量,在一些情况下离散变量能够简化模型计算同时能够提升模型的稳定性,比如逻辑回归经常使用离散后的变量进行训练,能够提高模型的训练速度以及提升模型的可解释性。

连续变量离散化大致有:对变量进行分桶,然后计算每个桶内样本的woe值,作为桶内样本的特征值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值