dataframe列互换 python_python数据分析:缺失数据的处理

研究了2天缺失数据的处理方法,今天给大家写一个比较全面的总结:

在pandas中,缺失数据由两个值表示:

  • None:None是Python单例对象,通常在Python代码中表示缺失数据。
  • NaN:NaN(非数字【not a number】的缩写),是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。

在pandas中缺失数据的表示上,这两者基本上可以互换。常见的缺失处理方法如下,今天我们一个一个来看:

  • isnull()
  • notnull()
  • dropna()
  • fillna()
  • replace()
  • interpolate()

isnull()和notnull()用来检查缺失值

代码1

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.isnull() 

输出

e42990ea0d0544b8bf4a6b44999d66cf

代码2

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.notnull() 

输出

e8790cb9c49a4beabe959d7c3e20f764

fillna(),replace()和interpolate()用来填充缺失值

注意Interpolate()使用各种插补技术来填充丢失的值,而不是对缺失值进行硬填充。

代码1 用单一值填充所有缺失数据

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(0) 

输出

528328f63367433e8e3a00a92a8286af

此处我用0填充了所以的缺失值

代码2 使用缺失值上一个值填充该缺失值

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='pad') 

输出

0c7a7b258879463cafd3c4f57ba046c0

可以看到第三列的第一个缺失没有被填充因为其没有上一个值

代码3 用缺失值的下一个值填充

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='bfill') 

输出

6ceb16afea8e4430bb2c88956b444edf

可以看到,第二列的最后一个缺失值没有被填充,因为其没有下一个值

代码4:使用interpolate()函数,用线性回归预测方法填充缺少的值。

df = pd.DataFrame({"A":[12, 4, 5, None, 1],                     "B":[None, 2, 54, 3, None],                     "C":[20, 16, None, 3, 8],                     "D":[14, 3, None, None, 6]})df  df.interpolate(method ='linear', limit_direction ='forward') 

输出

ba9c837c738c4c10a2e030bf41557e3b

可以看到,第二列的第一行缺失值并没有被插补成功,因为我们插补的方向是向前的。

dropna()删除缺失值

代码1:删除包含至少1个空值的行。

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, 40, 80, 98],         'Fourth Score':[np.nan, np.nan, np.nan, 65]} df = pd.DataFrame(dict) df.dropna()

输出

60ef1dd642294cc99923a22d5bcfad0a

可以看到,只要某一行中有一个缺失值,那么这一整行都会被删除

代码2:如果该行中的所有值都缺失,才删除该行。

dict = {'First Score':[100, np.nan, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, np.nan, 80, 98],         'Fourth Score':[np.nan, np.nan, np.nan, 65]} dfdf.dropna(how = 'all') 

输出

64ed733e69734562818f766270991dbe

可以看到因为第二行所有值都缺失,所以第二行被删除。

代码3:删除包含至少1个空值的列。

dict = {'First Score':[100, np.nan, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, np.nan, 80, 98],         'Fourth Score':[60, 67, 68, 65]} df = pd.DataFrame(dict) df.dropna(axis = 1) 

输出

39be572e0cc44a07ba800857d44f9503

可以看出,某一行只要有一个缺失便整行都被删除。


好了,今天就写这么多。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

往期精彩:

python数据分析:缺失值处理

python数据分析:删除与重命名dataframe的行与列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值