Pandas - 5.缺失值处理

陈天睡懒觉.

已于 2022-05-22 17:47:24 修改

阅读量841

点赞数

分类专栏： Pandas 文章标签：数据挖掘数据分析 python

于 2022-05-22 17:47:02 首次发布

本文链接：https://blog.csdn.net/Aaron_ChenShenyu/article/details/124913773

版权

本文详细介绍了Pandas中如何处理缺失值，包括通过isnull()和notnull()判断缺失值，读取文件时设定na_values，统计缺失值的方法。还探讨了缺失值处理的几种策略，如fillna()的前向填充、后向填充和插值，以及dropna()的删除策略。此外，还提到了在含有缺失值的情况下进行计算的注意事项和查看带有缺失值样本的方法。

摘要由CSDN通过智能技术生成

判断缺失值

isnull()
notnull()

import pandas as pd
from numpy import NaN,NAN,nan
import numpy as np

print(pd.isnull(NaN))
print(pd.isnull(NAN))
print(pd.isnull(nan))
print(pd.isnull(True))

True
True
True
False

print(pd.notnull(NaN))
print(pd.notnull(NAN))
print(pd.notnull(nan))
print(pd.notnull(True))

False
False
False
True

读取文件时产生的缺失值

pd.read_csv()函数中有三个参数与缺失值有关：

na_values：可以额外指定缺失值，比如99作为缺失值，na_values=[99]
keep_default_na：布尔值，默认为True,即na_values额外指定的值会追加到现有的缺失值中。设为False则只使用na_values已有的值
na_filter：布尔值，默认为True,即把缺失值编码成NaN。设为False,则不会将任何值编码成NaN。可在不含缺失值的情况下加快读取数据的速度。

print(pd.read_csv('data/survey_visited.csv'))

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22

# 加载数据时不包含默认缺失值
print(pd.read_csv('data/survey_visited.csv',
                 keep_default_na=False)<

最低0.47元/天解锁文章

陈天睡懒觉.

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pandas - 5.缺失值处理

判断缺失值isnull()notnull()import pandas as pdfrom numpy import NaN,NAN,nanimport numpy as npprint(pd.isnull(NaN))print(pd.isnull(NAN))print(pd.isnull(nan))print(pd.isnull(True))TrueTrueTrueFalseprint(pd.notnull(NaN))print(pd.notnull(NAN))p
复制链接

扫一扫