如何处理数据中的缺失值

可以分为以下 2 种情况

 

缺失值较多

  • 直接舍弃该列特征,否则可能会带来较大的噪声,从而对结果造成不良影响。

缺失值较少

  • 当缺失值较少(<10%)时,可以考虑对缺失值进行填充,以下是几种常用的填充策略:

  1. 用一个异常值填充(比如 0),将缺失值作为一个特征处理

    data.fillna(0)

  2. 均值|条件均值填充

    如果数据是不平衡的,那么应该使用条件均值填充

    所谓条件均值,指的是与缺失值所属标签相同的所有数据的均值

    data.fillna(data.mean())

  3. 用相邻数据填充

    # 用前一个数据填充
    data.fillna(method='pad')
    # 用后一个数据填充
    data.fillna(method='bfill') 
  4. 插值

    data.interpolate()

  5. 拟合

    简单来说,就是将缺失值也作为一个预测问题来处理:将数据分为正常数据和缺失数据,对有值的数据采用随机森林等方法拟合,然后对有缺失值的数据进行预测,用预测的值来填充。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾世林jiashilin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值