1、缺失值
当读取csv文件或者excel文件生成DataFrame时,某些单元格的数据是缺失的,缺失的部分会显示为NaN,None或者NaT(取决于单元格的数据类型)
NaN 表示数字类型的缺失值
NaT 表示时间类型的缺失值
None 表示字符串类型的缺失值
实际项目中,如果缺失值一直存在原始的数据源总,后续数据分析时很可能有错误的结果
需要根据实际情况进行抉择,来降低缺失值对于分析结果的影响
a 按单元格查看缺失值情况
使用isna函数
# 假设data_info为已经读取为DataFrame
data_info.isna()
该函数返回的是一个新的DataFrame,而内容是由布尔型数据组成,原始的DataFrame中的单元格如果数据缺失,在新的DataFrame中对应的单元格的内容是False,否则为True
b 按列查看缺失值
经常使用列聚合缺失值的数量
data_info.isna().sum()
返回每列对应缺失值的数量
c 按行查看缺失值
使用行聚合缺失的方法查看
data_info.isna().sum(1