python数据缺失_python数据分析：缺失数据的处理

最新推荐文章于 2023-10-09 18:13:22 发布

weixin_39938331

最新推荐文章于 2023-10-09 18:13:22 发布

阅读量331

点赞数

文章标签： python数据缺失

本文链接：https://blog.csdn.net/weixin_39938331/article/details/111403883

版权

本文详细总结了Python中pandas库处理缺失数据的方法，包括isnull()、notnull()用于检查缺失值，dropna()删除缺失值，fillna()、replace()和interpolate()填充缺失值。文中通过实例代码介绍了每种方法的使用技巧和注意事项。

摘要由CSDN通过智能技术生成

研究了2天缺失数据的处理方法，今天给大家写一个比较全面的总结：

在pandas中，缺失数据由两个值表示：

None：None是Python单例对象，通常在Python代码中表示缺失数据。

NaN：NaN(非数字【not a number】的缩写)，是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。

在pandas中缺失数据的表示上，这两者基本上可以互换。常见的缺失处理方法如下，今天我们一个一个来看：

isnull()

notnull()

dropna()

fillna()

replace()

interpolate()

isnull()和notnull()用来检查缺失值

代码1

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.isnull()

输出

代码2

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.notnull()

输出

fillna()，replace()和interpolate()用来填充缺失值

注意Interpolate()使用各种插补技术来填充丢失的值，而不是对缺失值进行硬填充。

代码1 用单一值填充所有缺失数据

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(0)

输出

此处我用0填充了所以的缺失值

代码2 使用缺失值上一个值填充该缺失值

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(method ='pad')

输出

可以看到第三列的第一个缺失没有被填充因为其没有上一个值

代码3 用缺失值的下一个值填充

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(method ='bfill')

输出

可以看到，第二列的最后一个缺失值没有被填充，因为其没有下一个值

代码4：使用interpolate()函数，用线性回归预测方法填充缺少的值。

df = pd.DataFrame({"A":[12, 4, 5, None, 1],

"B":[None, 2, 54, 3, None],

"C":[20, 16, None, 3, 8],

"D":[14, 3, None, None, 6]})

df.interpolate(method ='linear', limit_direction ='forward')

输出

可以看到，第二列的第一行缺失值并没有被插补成功，因为我们插补的方向是向前的。

dropna()删除缺失值

代码1：删除包含至少1个空值的行。

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, 40, 80, 98],

'Fourth Score':[np.nan, np.nan, np.nan, 65]}

df = pd.DataFrame(dict)

df.dropna()

输出

可以看到，只要某一行中有一个缺失值，那么这一整行都会被删除

代码2：如果该行中的所有值都缺失，才删除该行。

dict = {'First Score':[100, np.nan, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, np.nan, 80, 98],

'Fourth Score':[np.nan, np.nan, np.nan, 65]}

df.dropna(how = 'all')

输出

可以看到因为第二行所有值都缺失，所以第二行被删除。

代码3：删除包含至少1个空值的列。

dict = {'First Score':[100, np.nan, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, np.nan, 80, 98],

'Fourth Score':[60, 67, 68, 65]}

df = pd.DataFrame(dict)

df.dropna(axis = 1)

输出

可以看出，某一行只要有一个缺失便整行都被删除。

好了，今天就写这么多。感谢大家耐心看完。发表这些东西的主要目的就是督促自己，希望大家关注评论指出不足，一起进步。内容我都会写的很细，用到的数据集也会在原文中给出链接，你只要按照文章中的代码自己也可以做出一样的结果，一个目的就是零基础也能懂，因为自己就是什么基础没有从零学Python的，加油。

往期精彩：

weixin_39938331

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python数据缺失_python数据分析：缺失数据的处理

研究了2天缺失数据的处理方法，今天给大家写一个比较全面的总结：在pandas中，缺失数据由两个值表示：None：None是Python单例对象，通常在Python代码中表示缺失数据。NaN：NaN(非数字【not a number】的缩写)，是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。在pandas中缺失数据的表示上，这两者基本上可以互换。常见的缺失处理方法如下，今天我们一个...
复制链接

扫一扫