这一期咱们继续讲讲一些基本的数据操作。不管是从数据源读取的数据,还是自己造的数据,都可能有部分字段部分行缺失。在数据分析过程中,缺失值的处理是一个很重要的操作。Python的DataFrame对于缺失值显示的是NaN。
首先,咱们还是利用上次造的数据。
import pandas as pd
dic={
'math':[88,66,55],
'physics':[99,77,33],
'science':[55,88,65]
}
df=pd.DataFrame(data=dic,index=['student1','student2','student3'])
1、空值判断
isnull():是否是空值
notnull():是否不是空值
使用df.isnull()语句会返回数据表中每个字段是否空值的布尔(true/false)判断。
除此之外,我们也可以用df1.notnull().all(axis=1)判断哪一行有空值。
2、空值的删除与填充
dropna(): 删除丢失数据
fillna(): 填充丢失数据
使用df1.dropna()语句删除任意含有空值的行,如果想要删除任意含有空值的列,可以设置axis=1如df1.dropna(axis=1)
使用df1.fillna(0)语句可以将所有的空值填充为0,也可以填充为任意需要的值。
3、nan的判断
有些时候我们并不想填充nan或是把含nan的行或列去掉,需要保留nan。但是在做数据操作的时候又需要对字段内的nan判断,不能使用isnull语句,该怎么办。
这时候需要另外一个模块——math。
判断某一个单独的数值是否是nan,我都建议使用math模块,即math.isnan()来判断。
我们可以试一下,在python单独制造nan需要用到numpy。
import numpy as np
np.nan is np.nan 结果为True
np.nan == np.nan 结果为False
是不是很神奇,两种写法好像是一样的,可就是出现了不一样的结果。内在原因很复杂,我也不太清楚,有兴趣可以查阅相关资料。
Import math
math.isnan(np.nan) 结果为True。
用math判断nan是比较保险的。另外,判断正负无穷也比较推荐math模块,如:math.isinf(np.inf)
4、字段重命名
如果需要将字段重命名,可以使用rename语句。
df1.rename(columns={'math':'english'},inplace=True)
此语句可以将math字段更名为english,其中有一个小技巧是一定要写inplace=True。只有这样才会将更改落实到df1表里,否则它只会显示你的更改,df1里的字段名还是math。
5、删除列
删除一列:df2=df1.drop('science',axis=1)
删除多列:df3=df1.drop(['science','physics'],axis=1)
删除列的时候一定要记得写axis=1才能达到你想要的效果。
这一期就到这吧,下期再见。
更多内容请关注微信公众号:XiaoXiong-WeiKe