特征预处理和特征生成 (三)缺失值的处理

一,填充缺失值

填充NaN的方法要取决于特定情况!
填充缺失值常用的方法有以下三种:

  • 将NaN替换为一个常数,如-1,-999等等。
    这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。
  • 将NaN替换为均值或者中位数、众数等。
    这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言,首先选择缺失值的对象可能会更困难。
  • 通过已有的值构建出缺失值的值,例如可以专门通过一个模型来预测缺失值。
  • 一些模型自带缺失值处理功能,不用专门再处理缺失值,如XGBoost和CatBoost。

需要注意的是有时候缺失值已经被组织者替换了!

二,利用缺失值生成新特征

通常情况下,在特征生成之前要避免填充NaNs!

1,二值特征isnull可能会很有用,它指明了哪些特征是缺失值,可以看做一个类别特征。

在计算平均值或中位数时,这种方法可以解决树和神经网络的问题。 但是这样做的缺点是我们会在数据集中增加两倍的列数。

2,我们想用数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值