pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

本文介绍了pandas中处理缺失值的方法,包括删除含有缺失值的行和列,使用平均值、中位数或众数填充,以及针对分类变量的热编码处理。特别是提到使用众数填充时,可以通过`mode()[0]`来实现,并用lambda函数应用到多列。
摘要由CSDN通过智能技术生成

缺失值的处理是一件艺术活,最高的境界应该是缺而不失。pandas中提供了非常丰富的工具来对缺失值进行处理。这里主要是对常用方法的简要介绍。

注:不同地区和软件对缺失值的表示方法不同,在用pandas读取文件时可指定缺失值的形式给参数na_values,如:

missing_values = ['n/a', 'na', '--']

df = pd.read_csv('文件名‘, na_values = missing_values)

缺失值处理常用策略:

对有缺失值的行和列简单的删除;

对缺失值进行计算,如用变量的平均值或众数进行填充;

在缺失值周围建立模型,然后用模型提供的值进行填充。

一、缺失值的删除

1.数据集中缺失值的统计

2.检查某列是否有缺失值

3.删除某列中有缺失值的行

4.删除有缺失值的行

如果需要某行全部是缺失值才删除时,可以添加参数how = 'all', axis = 0

二、缺失值的计算

通常比较常用的填充缺失值的方法有计算变量的平均值、中位数和众数,更高级一点的是用K-NN和baye

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值