数据分析之缺失值处理(下)

本文继续上篇数据分析中关于缺失值处理的话题,介绍了三种方法:删除、替换和插补。插补法中,使用fillna方法能对不同变量指定不同替换值,并通过np.where函数进行有条件替换。此外,文章以KNN算法为例,展示了如何在Titanic数据集中应用插补法处理Age变量的缺失值。对于不同缺失程度的变量,如Age、Cabin和Embarked,提出了不同的处理策略。
摘要由CSDN通过智能技术生成

承接上文:数据分析之缺失值处理

缺失值处理

 1)删除

删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内);

或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);

 2)替换

直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值;

其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降;

3)插补

利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作预测;

其优势在于预测的准确性高;缺点是需要大量的计算,导致缺失值的处理速度大打折扣。

缺失值——替换处理

fillna方法支持对不同变量指定不同替换值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值