python学习——缺失值、重复值处理及替换

文章介绍了如何在Pandas中处理数据的缺失值和重复值。包括使用df.isnull()和df.notnull()来检查缺失值,用df.drop()删除数据,以及df.fillna()进行填充,支持固定值填充和线性插值。对于重复值,可以使用df.duplicated()检测,df.drop_duplicates()进行删除。
摘要由CSDN通过智能技术生成

1 缺失值处理

1.1 查看缺失值 df.isnull()

df.isnull() #将空值转换为真
df.notnull() #空值转换为假

在这里插入图片描述

配合上面的功能,使用掩码提取对应数据

df[df.column名.isnull()]
df[df.column名.notnull()]

在这里插入图片描述

1.2 统计缺失值 df.isnull().sum()

df.isnull().sum()

在这里插入图片描述

1.3 删除缺失值 df.drop()

axis
	0: 删除行数据
	1: 删除列数据
subset: 参数表示删除时只考虑的索引或列名
thresh: 当数据有效值超过thresh参数值的时候,则数据会予以保留,否则会被删除

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

1.4 填充缺失值 df.fillna()

1.4.1 固定值填充 df.fillna(value)

  1. value: 固定值填充
  2. method
  • ffill #用上面最近的一个非空值填充
  • bfill #用下面最近的一个非空值填充
  • df.fillna(method=“bfill”,limit=2,axis=1) #限制轴信息
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

1.4.2 线性插值填充 df.fillna(df.interpolate())

用上面非空值的线性插值填充数据

df.fillna(df.interpolate())

2 重复值处理

2.1 查看重复值 df.duplicated()

在这里插入图片描述在这里插入图片描述

2.2 筛选重复值 df[df.duplicated()]

在这里插入图片描述

2.3 删除重复值 df.drop_duplicates()

默认保留位置靠前的数据行,可以通过keep来决定两行数据完全相同保留后面的还是前面的。
在这里插入图片描述
在这里插入图片描述

3 替换 df.replace

df.replace('xxm','小明',inplace = True) #inplace为True时,原地替换

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值