使用Python快速处理Excel操作笔记四:表格数据缺失值与异常值的处理

1、缺失值
当读取csv文件或者excel文件生成DataFrame时,某些单元格的数据是缺失的,缺失的部分会显示为NaN,None或者NaT(取决于单元格的数据类型)
NaN 表示数字类型的缺失值
NaT 表示时间类型的缺失值
None 表示字符串类型的缺失值
实际项目中,如果缺失值一直存在原始的数据源总,后续数据分析时很可能有错误的结果
需要根据实际情况进行抉择,来降低缺失值对于分析结果的影响
a 按单元格查看缺失值情况
使用isna函数

# 假设data_info为已经读取为DataFrame
data_info.isna()

该函数返回的是一个新的DataFrame,而内容是由布尔型数据组成,原始的DataFrame中的单元格如果数据缺失,在新的DataFrame中对应的单元格的内容是False,否则为True
b 按列查看缺失值

经常使用列聚合缺失值的数量

data_info.isna().sum()

返回每列对应缺失值的数量

c 按行查看缺失值
使用行聚合缺失的方法查看

data_info.isna().sum(1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wait me

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值