目录
3.1.2缺失值数量可视化( missing.bar(df) )
3.1.3缺失值位置的可视化( missingno.matrix(df) )
3.1.4 随机取出数据查看缺失值( df.sample(n) )
3.1.5 缺失值之间的相关性 ( missingno.heatmap(df) )
3.4.2 按列删除缺失值 (drop())
3.4.3填充缺失值(非时许缺失值)df.fiillna(填充值,inplace=True/False)
3.4.4 时序缺失值处理 df.fillna(method,inplace)
1.pandas缺失值NaN简介
在实际处理数据中,会存在很多缺失值。
缺失值形式:
- 在数据库中,确实值为NULL
- 在某些编程语言中用NA或None
- 在缺失值也可能是空字符串' '或数值0
- 在pandas中使用NaN表示缺失值
pandas中的NaN值来自NumPy库(因此需要导入numpy库)
NumPy中缺失值有几种表示形式:NaN,NAN,nan,他们都一样
#导入numpy库并输出空值
import numpy as np
print(np.nan)
print(np.NAN)
print(np.NaN)
缺失值和其他类型的数据不同,它毫无意义,NaN不等于0,也不等于空字符串
两个NaN也不相同
pandas判断是否为缺失值的方法:
方法 | 说明 |
pd.isnull(obj)或pd.isna(obj) | 判断obj是否为缺失值 |
2.加载包含缺失值的数据
缺失值的来源:1)数据集中本身包含缺失值
2)数据整理过程中产生的缺失值,如merge、join等操作
2.1 keep_default_na=False参数
pandas加载数据时,可以设置keep_default_na=False参数,不显示默认缺失值。
pd.read_csv('./data/survey_visited.csv',keep_default_na=False)
2.2 na_values参数
pandas加载数据时,也可以设置na_values参数,指定加载数据时把什么当作缺失值
pd.read_csv('./data/survey_visited.csv',na_values='DR-1')
3.缺失值处理
3.1使用Missingno库对缺失值的情况进行可视化探查
3.1.1安装missingno并初步查看
1)完全