文章目录
1 缺失值处理
1.1 查看缺失值 df.isnull()
df.isnull() #将空值转换为真
df.notnull() #空值转换为假
配合上面的功能,使用掩码提取对应数据
df[df.column名.isnull()]
df[df.column名.notnull()]
1.2 统计缺失值 df.isnull().sum()
df.isnull().sum()
1.3 删除缺失值 df.drop()
axis
0: 删除行数据
1: 删除列数据
subset: 参数表示删除时只考虑的索引或列名
thresh: 当数据有效值超过thresh参数值的时候,则数据会予以保留,否则会被删除
1.4 填充缺失值 df.fillna()
1.4.1 固定值填充 df.fillna(value)
- value: 固定值填充
- method
- ffill #用上面最近的一个非空值填充
- bfill #用下面最近的一个非空值填充
- df.fillna(method=“bfill”,limit=2,axis=1) #限制轴信息
1.4.2 线性插值填充 df.fillna(df.interpolate())
用上面非空值的线性插值填充数据
df.fillna(df.interpolate())
2 重复值处理
2.1 查看重复值 df.duplicated()
2.2 筛选重复值 df[df.duplicated()]
2.3 删除重复值 df.drop_duplicates()
默认保留位置靠前的数据行,可以通过keep来决定两行数据完全相同保留后面的还是前面的。
3 替换 df.replace
df.replace('xxm','小明',inplace = True) #inplace为True时,原地替换