处理缺失值--Pandas

1.检测空值

1.1 DataFrame.isna()

df.isna()对缺失值进行检测,返回一个与原始DataFrame大小相同的布尔型DataFrame。检测到None、np.nan、NaT返回True,否则返回False。’ '空字符串不是视为空值。

原始数据如下:
在这里插入图片描述

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.shape)
order.loc[2, '客户类型'] = np.nan
order.loc[3, '地区'] = ''
print(order.head())
print(order.isna().head())

在这里插入图片描述
单独对某列数据空值进行检测

print(order['客户类型'].isna().head())

在这里插入图片描述

1.2 DataFrame.notna()

与df.isna()相反,函数df.notna()检测非缺失值,返回与原始DataFrame大小相同的DataFrame,非空值返回True,None、NaN、时间空值NaT返回False。

print(order.notna().head())
print(order['客户类型'].notna().head())

在这里插入图片描述

2. 删除空值

dropna()方法

2.1 函数功能

移除缺失值,当inplace取值为False时,返回数据类型为DataFrame,当inplace=True,返回数据类型为None

2.2 函数语法

DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, thresh=_NoDefault.no_default, subset=None, inplace=False, ignore_index=False)

2.3 函数参数

参数含义
axis指定去除包含缺失值的行还是列:取值为0或’index’:去除包含空值的行;1或‘colum’:去除包含空值的列。默认值为0
how取值为any(默认):删除存在空值的行/列,取值为all:删除所有元素均为空值的行/列
thresh整数n,可选参数,指定行/列元素至少n个非空值才会被保留
subset可选参数,列标签或者列标签组成的列表,指定查找缺失值的范围,若要删除行9axis=0),则指定在哪几列进行查找,若要删除列(axis=1),则指定在哪几行存在缺失值
inplace布尔型,默认取值为False:创建新DataFrame,取值为True时:改变原有DataFrame
ignore_index布尔型,默认为False:不改变索引标签

2.3.1 参数取默认值

此时存在缺失值的行均会被删除,结果会新建DataFrame,原有DataFrame不会被改变,行索引没有自动补齐。

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.shape)
order.loc[2, '客户类型'] = np.nan
order.loc[3, '地区'] = ''
print(order.head())
# 1. 删除存在缺失值的行
print(order.dropna())
print(order.dropna().shape)

在这里插入图片描述

2.3.2 参数thresh

行/列至少有多少个非空值才会被保留下来,不进行删除

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.shape)
order.loc[[2,10], '客户类型'] = np.nan
order.loc[3, '地区'] = ''
print(order.head())

print(order.isna().sum(axis=0))
print(order.dropna(axis=1, thresh=14))

在这里插入图片描述
在这里插入图片描述

2.3.3 参数subset

指定查找缺失值的范围

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.shape)
order.loc[[2, 10], '客户类型'] = np.nan
order.loc[3, '地区'] = ''
print(order.head())
print(order.dropna(axis=0, subset=['支付方式','客户类型']).head())

在这里插入图片描述

2.3.4 参数inplace

默认情况下,删除缺失值后会创建新的DataFrame ,但是通过指定Inplace=True,可以实现对原DataFrame的替换

print(order.dropna(axis=0, subset=['支付方式','客户类型']).head())
print(order.shape)  #可以发现删除缺失值后数据order的大小并未发生变化
print(order.dropna(axis=0, subset=['支付方式','客户类型'], inplace=True))
# inplace=True:返回None,直接修改原始数据
print(type(order.dropna(axis=0, subset=['支付方式','客户类型'], inplace=True))) 
print(order.shape)
print(order.head())

在这里插入图片描述

3.填充空值

3.1 函数功能

用指定的方法填充空值,Inplace=False,返回DataFrame,inplace=True,返回None。

3.2 函数语法

DataFrame.fillna(value=None, *, method=None, axis=None, inplace=False, limit=None, downcast=None)

3.3 函数参数

参数含义
value填充缺失值的值,取值可以是标量,字典,Series或者DataFrame
mentod填充空值的方法:ffill:使用缺失值前的值进行填充;backfill/bfill:使用缺失值后面的值进行填充
axis沿着行/列填充缺失值,0或“index”(默认):按行填充;1或“columns”:按列填充
inplace布尔型,默认取值为False,不修改原DataFrame
limit整数,填充的缺失值数量的最大值,默认为None:填充所有的缺失值
downcast字典,默认为None,不理解

3.3.1 默认参数填充

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
# 1. 默认参数填充
print(order.fillna(999))

在这里插入图片描述

3.3.2 传入字典,不同列指定不同填充值

# 2.不同列指定不同的缺失值
print(order.fillna({'订单日期':'2022-07-07','支付方式':'未知'}))

在这里插入图片描述

3.3.3 指定填充方法method

# 3. 用缺失值前面的值填充
print(order.fillna(method='ffill'))

# 4.用缺失值后面的值填充
print(order.fillna(method='bfill'))

在这里插入图片描述

3.3.4 设置最大填充数量

当行/列中的缺失值个数大于指定的limit值时,剩下的缺失值将不被填充

# 5.指定填充缺失值次数最大值
print(order.fillna({'地区':'未知','数量':99},limit=2))

在这里插入图片描述
参考文献:https://www.bilibili.com/video/BV1UJ411A7Fs/?p=7&spm_id_from=pageDriver&vd_source=1dc8a157f48c26397e26256eb05fe0a9

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: pandas.isna函数用于检查数据中的缺失(NaN,NaT)并返回一个布尔数组。您可以将待检查的数据传递给isna函数,例如: ``` import pandas as pd data = pd.Series([1, 2, None, 4, pd.NaT]) is_missing = pd.isna(data) print(is_missing) ``` 输出结果为: ``` 0 False 1 False 2 True 3 False 4 True dtype: bool ``` 在上面的示例中,我们使用pandas.Series来创建一个数据序列。我们将这个序列传递给isna函数,该函数将返回一个布尔数组,其中第2个和第5个元素为True,表示这些元素是缺失。 ### 回答2: pandas.isna是一个pandas库中的函数,用于判断给定的数据是否为缺失。下面是关于pandas.isna函数的使用方法的说明: 1. 导入pandas库: 在使用pandas库之前,需要导入pandas库才能使用其中的函数。可以使用以下代码导入pandas库: ```python import pandas as pd ``` 2. 创建DataFrame对象: 在使用pandas.isna函数之前,需要创建一个DataFrame对象作为输入数据。DataFrame是pandas库中最常用的数据结构之一,可以存储二维数据。 3. 使用pandas.isna函数: pandas.isna函数可以接收一个DataFrame对象作为参数,并返回一个与输入DataFrame对象形状相同的布尔类型的数据。返回数据中的每个元素表示相应位置是否为缺失。 示例代码如下: ```python # 创建DataFrame对象 data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8], 'C': [None, 10, 11, None]} df = pd.DataFrame(data) # 使用pandas.isna函数判断缺失 is_na = pd.isna(df) print(is_na) ``` 输出结果如下: ``` A B C 0 False False True 1 False True False 2 True False False 3 False False True ``` 可以看到,输出结果中的每个元素表示相应位置是否为缺失。True表示为缺失,False表示不是缺失。 另外,还可以使用pandas的isnull函数实现与pandas.isna函数相同的功能,两者是等价的。 上述就是关于pandas.isna函数的使用方法,通过判断DataFrame对象中的缺失,可以更好地进行数据处理和分析。 ### 回答3: pandas.isna是一个用于判断数据中是否缺失的函数。它可以接收一个数据结构作为输入,判断其中每个元素是否为缺失,并返回一个相同形状的布尔数组。 使用时,我们可以将需要判断的数据结构作为isna函数的参数传入。例如,可以使用isna函数对一个DataFrame或Series对象进行缺失判断。 对于DataFrame对象,isna函数的使用示例如下: ``` import pandas as pd data = {'Name': ['Tom', 'Nick', 'John', None], 'Age': [20, 30, None, 40], 'City': [None, 'New York', 'Paris', 'London']} df = pd.DataFrame(data) # 对整个DataFrame进行缺失判断 result = df.isna() print(result) ``` 对于Series对象,isna函数的使用示例如下: ``` import pandas as pd data = pd.Series([1, 2, None, 4, 5, None]) # 对Series对象进行缺失判断 result = data.isna() print(result) ``` 以上示例中,isna函数会将DataFrame或Series中每个元素进行判断,如果为缺失,则返回True,否则返回False。最终生成一个与输入数据结构形状相同的布尔数组。 通过使用pandas.isna函数,我们可以方便地对数据进行缺失判断,从而进行后续的数据清洗、处理或分析工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值