python数据缺失_python数据分析:缺失数据的处理

本文详细总结了Python中pandas库处理缺失数据的方法,包括isnull()、notnull()用于检查缺失值,dropna()删除缺失值,fillna()、replace()和interpolate()填充缺失值。文中通过实例代码介绍了每种方法的使用技巧和注意事项。
摘要由CSDN通过智能技术生成

研究了2天缺失数据的处理方法,今天给大家写一个比较全面的总结:

在pandas中,缺失数据由两个值表示:

None:None是Python单例对象,通常在Python代码中表示缺失数据。

NaN:NaN(非数字【not a number】的缩写),是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。

在pandas中缺失数据的表示上,这两者基本上可以互换。常见的缺失处理方法如下,今天我们一个一个来看:

isnull()

notnull()

dropna()

fillna()

replace()

interpolate()

isnull()和notnull()用来检查缺失值

代码1

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.isnull()

输出

代码2

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.notnull()

输出

fillna(),replace()和interpolate()用来填充缺失值

注意Interpolate()使用各种插补技术来填充丢失的值,而不是对缺失值进行硬填充。

代码1 用单一值填充所有缺失数据

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(0)

输出

此处我用0填充了所以的缺失值

代码2 使用缺失值上一个值填充该缺失值

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(method ='pad')

输出

可以看到第三列的第一个缺失没有被填充因为其没有上一个值

代码3 用缺失值的下一个值填充

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, 45, 56, np.nan],

'Third Score':[np.nan, 40, 80, 98]}

df = pd.DataFrame(dict)

df.fillna(method ='bfill')

输出

可以看到,第二列的最后一个缺失值没有被填充,因为其没有下一个值

代码4:使用interpolate()函数,用线性回归预测方法填充缺少的值。

df = pd.DataFrame({"A":[12, 4, 5, None, 1],

"B":[None, 2, 54, 3, None],

"C":[20, 16, None, 3, 8],

"D":[14, 3, None, None, 6]})

df

df.interpolate(method ='linear', limit_direction ='forward')

输出

可以看到,第二列的第一行缺失值并没有被插补成功,因为我们插补的方向是向前的。

dropna()删除缺失值

代码1:删除包含至少1个空值的行。

dict = {'First Score':[100, 90, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, 40, 80, 98],

'Fourth Score':[np.nan, np.nan, np.nan, 65]}

df = pd.DataFrame(dict)

df.dropna()

输出

可以看到,只要某一行中有一个缺失值,那么这一整行都会被删除

代码2:如果该行中的所有值都缺失,才删除该行。

dict = {'First Score':[100, np.nan, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, np.nan, 80, 98],

'Fourth Score':[np.nan, np.nan, np.nan, 65]}

df

df.dropna(how = 'all')

输出

可以看到因为第二行所有值都缺失,所以第二行被删除。

代码3:删除包含至少1个空值的列。

dict = {'First Score':[100, np.nan, np.nan, 95],

'Second Score': [30, np.nan, 45, 56],

'Third Score':[52, np.nan, 80, 98],

'Fourth Score':[60, 67, 68, 65]}

df = pd.DataFrame(dict)

df.dropna(axis = 1)

输出

可以看出,某一行只要有一个缺失便整行都被删除。

好了,今天就写这么多。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

往期精彩:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值