Pandas 缺失数据处理大全（附代码）

我不是打字员

已于 2022-03-25 14:10:23 修改

阅读量425

点赞数

文章标签： python

于 2022-03-25 11:06:25 首次发布

本文链接：https://blog.csdn.net/a379749/article/details/123730584

版权

本文详细介绍了Pandas中缺失值的类型，包括np.nan、None和pd.NA，并讲解了如何判断、统计、筛选、填充及删除缺失值。通过实例展示了在加法、累加、计数和分组计算中如何处理缺失值。

摘要由CSDN通过智能技术生成

一、缺失值类型

在pandas中，缺失数据显示为NaN。缺失值有3种表示方法，np.nan，none，pd.NA。

1、np.nan

缺失值有个特点（坑），它不等于任何值，连自己都不相等。如果用nan和任何其它值比较都会返回nan。

np.nan == np.nan
>> False

也正由于这个特点，在数据集读入以后，不论列是什么类型的数据，默认的缺失值全为np.nan。

因为nan在Numpy中的类型是浮点，因此整型列会转为浮点；而字符型由于无法转化为浮点型，只能归并为object类型（‘O’），原来是浮点型的则类型不变。

type(np.nan)
>> float
pd.Series([1,2,3]).dtype
>> dtype('int64')
pd.Series([1,np.nan,3]).dtype
>> dtype('float64')

初学者做数据处理遇见object类型会发懵，不知道这是个啥，明明是字符型，导入后就变了，其实是因为缺失值导致的。

除此之外，还要介绍一种针对时间序列的缺失值，它是单独存在的，用NaT表示，是pandas的内置类型，可以视为时间序列版的np.nan，也是与自己不相等。

s_time = pd.Series([pd.Timestamp('20220101')]*3)
s_time
>> 0 2022-01-01
   1 2022-01-01
   2 2022-01-01
   dtype:datetime64[ns]
-----------------
s_time[2] = pd.NaT
s_time
>> 0 2022-01-01
   1 2022-01-01
   2 NaT
   dtype:datetime64[ns]

2、None

还有一种就是None，它要比nan好那么一点，因为它至少自己与自己相等。

None == None
>> True

在传入数值类型后，会自动变为np.nan。

type(pd.Series([1,None])[1])
>> numpy.float64

只有当传入object类型时是不变的，因此可以认为如果不是人工命名为None的话，它基本不会自动出现在pandas中，所以None大家基本也看不到。

type(pd.Series([1,None],dtype='O')[1])
>> NoneType

</

最低0.47元/天解锁文章

我不是打字员

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫