数据分析之缺失值处理（下）

Python技术博文

于 2019-11-12 08:50:00 发布

阅读量708

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FRBeVrQbN4L/article/details/103043446

版权

本文继续上篇数据分析中关于缺失值处理的话题，介绍了三种方法：删除、替换和插补。插补法中，使用fillna方法能对不同变量指定不同替换值，并通过np.where函数进行有条件替换。此外，文章以KNN算法为例，展示了如何在Titanic数据集中应用插补法处理Age变量的缺失值。对于不同缺失程度的变量，如Age、Cabin和Embarked，提出了不同的处理策略。

摘要由CSDN通过智能技术生成

承接上文：数据分析之缺失值处理

缺失值处理

1）删除

删除法是指将缺失值所在的观测行删除（前提是缺失行的比例非常低，如5%以内）；

或者删除缺失值所对应的变量（前提是该变量中包含的缺失值比例非常高，如70%左右）；

2）替换

直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值；

其好处是缺失值的处理速度快；弊端是易产生有偏估计，导致缺失值替换的准确性下降；

3）插补

利用有监督的机器学习方法（如回归模型、树模型、网络模型等）对缺失值作预测；

其优势在于预测的准确性高；缺点是需要大量的计算，导致缺失值的处理速度大打折扣。

缺失值——替换处理

fillna方法支持对不同变量指定不同替换值

最低0.47元/天解锁文章

Python技术博文

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。