揭秘Pandas：缺失值处理的深度探索与实战技巧

置顶腾飞开源

已于 2024-07-02 10:15:44 修改

阅读量832

点赞数 11

分类专栏： Pandas 文章标签： pandas 数据分析科学计算人工智能学习笔记

于 2024-06-30 23:58:39 首次发布

本文链接：https://blog.csdn.net/luorongxi123/article/details/140088394

版权

Pandas 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

在这里插入图片描述

导包

import numpy as np
import pandas as pd

有两种丢失数据（空值）：

None
np.nan

1.None

None是Python自带的，是Python中的空对象。None不能参与到任何计算中。
object类型的运算要比int类型的运算慢得多

%timeit np.arange(1e6,dtype=object).sum()

114 ms ± 1.61 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit np.arange(1e6,dtype=np.int32).sum()

3.81 ms ± 103 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

2. np.nan

np.nan是浮点类型，能参与到计算中，但计算的结果总是NaN

type(np.nan)

float

但可以使用np.nan*()函数来计算nan，此时会过滤掉nan

n = np.array([1,2,3,np.nan,5,6])
n

array([ 1.,  2.,  3., nan,  5.,  6.])

np.sum(n)

nan

# 自动过滤nan不计算
np.nansum(n)

17.0

np.nan + 10

nan

3.Pandas中的None与NaN

（1）Pandas中None与np.nan都视作np.nan

创建DataFrame

data = np.random.randint(0,100,size=(5,5))
df = pd.DataFrame(data=data,columns=list("ABCDE"))
df

	A	B	C	D	E
0	60	81	1	75	82
1	9	66	92	75	75
2	50	98	24	60	77
3	12	54	16	62	11
4	2	62	20	31	67

df.loc[2,"B"] = np.nan
df.loc[3,"C"] = None
df

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

df.loc[2,"B"],df.loc[3,"C"]

(nan, nan)

（2）Pandas中None与np.nan的操作

判断函数
- isnull()
- notnull()

df

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

df.isnull()

	A	B	C	D	E
0	False	False	False	False	False
1	False	False	False	False	False
2	False	True	False	False	False
3	False	False	True	False	False
4	False	False	False	False	False

df.notnull()

	A	B	C	D	E
0	True	True	True	True	True
1	True	True	True	True	True
2	True	False	True	True	True
3	True	True	False	True	True
4	True	True	True	True	True

# all()：必须全部为True才会是True，类似and
# any()：只要有一个为True就为True,类似or

# 找有空值的列（常用，尽可能找到有空的列）
df.isnull().any()

A    False
B     True
C     True
D    False
E    False
dtype: bool

# 必须全部都为空的行或列才会为True
df.isnull().all()

A    False
B    False
C    False
D    False
E    False
dtype: bool

# 找没有空的列（常用，尽量找没有空值的列或行）
df.notnull().all()

A     True
B    False
C    False
D     True
E     True
dtype: bool

# 只要有不为空的行或列就为True
df.notnull().any()

A    True
B    True
C    True
D    True
E    True
dtype: bool

# 找有空的行
df.isnull().any(axis=1)

0    False
1    False
2     True
3     True
4    False
dtype: bool

# 找没有空的行
df.notnull().all(axis=1)

0     True
1     True
2    False
3    False
4     True
dtype: bool

使用bool值索引过滤数据

# 过滤数据
df

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

# 过滤行
# 方式一
cond = df.isnull().any(axis=1)
# 取反
display(~cond)
df[~cond]

0     True
1     True
2    False
3    False
4     True
dtype: bool

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
4	2	62.0	20.0	31	67

# 方式二
cond = df.notnull().all(axis=1)
df[cond]

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
4	2	62.0	20.0	31	67

# 过滤列
# 方式一
cond = df.isnull().any()
df.loc[:,~cond]

	A	D	E
0	60	75	82
1	9	75	75
2	50	60	77
3	12	62	11
4	2	31	67

# 方式二
cond = df.notnull().all()
df.loc[:,cond]

	A	D	E
0	60	75	82
1	9	75	75
2	50	60	77
3	12	62	11
4	2	31	67

过滤函数
- dropna()：过滤丢失数据

可以选择过滤的是行还是列（默认为行）

df

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

# 默认删除有空的行
df.dropna()

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
4	2	62.0	20.0	31	67

# 删除有空的列
df.dropna(axis=1)

	A	D	E
0	60	75	82
1	9	75	75
2	50	60	77
3	12	62	11
4	2	31	67

也可以选择过滤的方式 how = “all”

df.dropna(how="any")

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
4	2	62.0	20.0	31	67

# 必须行的所有数据都为nan才会删除
df.dropna(how="all")

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

# 必须列的所有数据都为nan才会删除
df.dropna(how="all",axis=1)

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

inplace=True 修改原数据

df2 = df.copy()
df2

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
2	50	NaN	24.0	60	77
3	12	54.0	NaN	62	11
4	2	62.0	20.0	31	67

# inplace=True 修改原数据
df2.dropna(inplace=True)
df2

	A	B	C	D	E
0	60	81.0	1.0	75	82
1	9	66.0	92.0	75	75
4	2	62.0	20.0	31	67

（3）填充函数 Series/DataFrame

fillna()：填充丢失数据

# 创建DataFrame
data = np.random.randint(0,100,size=(5,5))
df = pd.DataFrame(data=data,columns=list("ABCDE"))
df

df.loc[2,"B"] = np.nan
df.loc[3,"C"] = None
df

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	93.0	37.0	14	45
2	52	NaN	72.0	36	27
3	51	70.0	NaN	68	13
4	11	51.0	57.0	20	94

# 填充nan
df.fillna(value=100)

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	93.0	37.0	14	45
2	52	100.0	72.0	36	27
3	51	70.0	100.0	68	13
4	11	51.0	57.0	20	94

df2 = df.copy()
df2.loc[1,"B"] = np.nan
df2.loc[2,"C"] = np.nan
df2

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	NaN	37.0	14	45
2	52	NaN	NaN	36	27
3	51	70.0	NaN	68	13
4	11	51.0	57.0	20	94

# limit：限制填充的次数
df2.fillna(value=100,limit=1,inplace=True)
df2

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	100.0	37.0	14	45
2	52	NaN	100.0	36	27
3	51	70.0	NaN	68	13
4	11	51.0	57.0	20	94

可以选择向前填充还是向后填充

df

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	93.0	37.0	14	45
2	52	NaN	72.0	36	27
3	51	70.0	NaN	68	13
4	11	51.0	57.0	20	94

# method : {'backfill', 'bfill', 'ffill', None}, default None
#     Method to use for filling holes in reindexed Series:

#     * ffill: propagate last valid observation forward to next valid.
#     * backfill / bfill: use next valid observation to fill gap.
# ffill：向前填充
df.fillna(method="ffill")

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	93.0	37.0	14	45
2	52	93.0	72.0	36	27
3	51	70.0	72.0	68	13
4	11	51.0	57.0	20	94

# backfill：向后填充
df.fillna(method="backfill")

	A	B	C	D	E
0	60	83.0	94.0	82	24
1	24	93.0	37.0	14	45
2	52	70.0	72.0	36	27
3	51	70.0	57.0	68	13
4	11	51.0	57.0	20	94

# ffill：向左填充
df.fillna(method="ffill",axis=1)

	A	B	C	D	E
0	60.0	83.0	94.0	82.0	24.0
1	24.0	93.0	37.0	14.0	45.0
2	52.0	52.0	72.0	36.0	27.0
3	51.0	70.0	70.0	68.0	13.0
4	11.0	51.0	57.0	20.0	94.0

# backfill：向右填充
df.fillna(method="backfill",axis=1)

	A	B	C	D	E
0	60.0	83.0	94.0	82.0	24.0
1	24.0	93.0	37.0	14.0	45.0
2	52.0	72.0	72.0	36.0	27.0
3	51.0	70.0	68.0	68.0	13.0
4	11.0	51.0	57.0	20.0	94.0

腾飞开源

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
揭秘Pandas：缺失值处理的深度探索与实战技巧

揭秘Pandas：深入探索缺失值处理的艺术。Pandas提供强大工具，如dropna、fillna，助力高效处理缺失数据。实战技巧包括智能填充、数据插补，以及基于业务逻辑的缺失值分析。掌握这些，您将能更精准地洞察数据，驱动决策。
复制链接

扫一扫