数据分析之缺失值处理(下)

承接上文:数据分析之缺失值处理

缺失值处理

 1)删除

删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内);

或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);

 2)替换

直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值;

其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降;

3)插补

利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作预测;

其优势在于预测的准确性高;缺点是需要大量的计算,导致缺失值的处理速度大打折扣。

缺失值——替换处理

fillna方法支持对不同变量指定不同替换值

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值