pandas 缺失值处理

最新推荐文章于 2024-08-19 20:48:15 发布

凯旋的皇阿玛

最新推荐文章于 2024-08-19 20:48:15 发布

阅读量1.6k

点赞数 1

分类专栏： Pandas 文章标签：缺失值 pandas

Pandas 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

- - - - 创建数据
        判断是否有缺失值及统计
        删除含有缺失值的行、列
        缺失值补充
        缺失值替换

创建数据

import pandas as pd
import numpy as np
data = pd.DataFrame({'a': [1, 2, 4, np.nan,7, 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'], 'c': [np.nan, 0, 4, np.nan, np.nan, 5], 'd': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})
     a    b    c   d
0  1.0    a  NaN NaN
1  2.0    b  0.0 NaN
2  4.0  NaN  4.0 NaN
3  NaN  NaN  NaN NaN
4  7.0    d  NaN NaN
5  9.0    e  5.0 NaN

判断是否有缺失值及统计

print(data.isnull().any())

a    True
b    True
c    True
d    True

print(data.isnull().sum())  #t统计每一列的缺失值个数
a    1
b    2
c    3
d    6

删除含有缺失值的行、列

axis 参数用于控制行或列，跟其他不一样的是，axis=0 （默认）表示操作行，axis=1 表示操作列。
how 参数可选的值为 any（默认）或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。
subset 参数表示删除时只考虑的索引或列名。
thresh参数的类型为整数，它的作用是，比如 thresh=3，会在一行/列中至少有 3 个非空值时将其保留。

df = data.dropna(axis=0,how='all')  #data不会改变
print(df)
  a    b    c   d
0  1.0    a  NaN NaN
1  2.0    b  0.0 NaN
2  4.0  NaN  4.0 NaN
4  7.0    d  NaN NaN
5  9.0    e  5.0 NaN

df = data.dropna(axis=0,how='any')  #data不会改变
print(df)
out:
Empty DataFrame
Columns: [a, b, c, d]
Index: []

df = data.dropna(axis=0,how='any',subset=["b"]) #subset 只考虑的行或列
print(df)

对列操作将axis换为1

缺失值补充

最常见的是使用 fillna 完成填充。
data.fillna(0)

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。
设置参数 method=‘pad’ 或 method=‘ffill’ 可以使用前一个有效值来填充。
设置参数 method=‘bfill’ 或 method=‘backfill’ 可以使用后一个有效值来填充。

除了通过 fillna 方法来填充缺失值外，还可以通过 interpolate 方法来填充。默认情况下使用线性差值，可以是设置 method 参数来改变方式。

缺失值替换

None、np.nan、NaT 这些都是缺失值。这些在 Pandas 的眼中是缺失值，有时候在我们人类的眼中，某些异常值我们也会当做缺失值来处理。

例如，在我们的存储的用户信息中，假定我们限定用户都是青年，出现了年龄为 40 的，我们就可以认为这是一个异常值。再比如，我们都知道性别分为男性（male）和女性（female），在记录用户性别的时候，对于未知的用户性别都记为了 “unknown”,很明显，我们也可以认为“unknown”是缺失值。此外，有的时候会出现空白字符串，这些也可以认为是缺失值。

对于上面的这种情况，我们可以使用 replace 方法来替换缺失值。