pandas用众数填充缺失值_pandas-缺失值处理

文章介绍了在数据集中处理缺失值的常用方法,包括删除法、替换法。在替换法中,重点讲解了如何使用Pandas的fillna方法用众数填充离散型变量的缺失值,并提供了实例代码。文中还提到了删除操作和不同填充策略的影响,强调了在实际应用中应注意避免数据混乱。
摘要由CSDN通过智能技术生成

缺失值是指数据集中的某些观测存在遗漏的指标值,缺失值的存在同样会影响到数据分析和挖掘的结果。

一般而言,当遇到缺失值是可以采三种方法处置:删除法,替换法和插补法。

1.删除法使用情况:当确实的观测比例非常低是,如5%以内,可以直接删除这些缺失的变量。

2.替换法:用某种直接替换缺失值,例如,对连续变量而言,可以使用均值或中位数替换,对于离散型变量,可以使用众数替换。

3.插补法:是指根据其他非确实的变量或观测来预测缺失值,常用的插补法有回归插补法,K近邻法,拉格朗日插补法等。

下面我们介绍两种比较常见的缺失值处理方法,删除法和替换法

例:

原数据:

从表中可以看出,该数据集存在4条缺失观测,行号分别是4,6,7和9,11。接下来我们要做的是如何判断数据集是否存在缺失值(尽管记录少的时候可以清楚地发现)

import pandas as pd

df= pd.read_excel(r'd:/data_test05.xlsx')

print('数据集中是否存在缺失值:\n',any(df.isnull()))

OUT:

True

删除操作:

df.dropna()                          #删除缺失值所在的行

df.drop('age',axis = 1)       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值