数据缺失是一个常见的现象
对于要处理的数据首先就要检查是否有缺失的情况,此时就要用到两个方法(两个方法的是一样的)。如果将缺失值纳入计算,默认为将NA看作0来进行计算
操作数据帧:
①全检查
②部分列检查
notnull()的使用方法与isnull()是一样的!!!
对缺失值的补救操作
①丢失NAN的数据
dropna()函数:默认axis=0,默认使用在行上,意味着行内的任何值为NA,那么整个行被排除:使用方法:df.dropna(axis=0),基本在机器学习中使用axis=1的使用
②填充NAN的数据:
df.fillna(method=’bfill’,axis=1)向后填充,也可以向前填充fill
③替换NAN的数据:
df.replace({np.nan:1000})将nan替换为1000
④插值替换NAN的数据:有点像最近邻K的方法
df.interpolate(method=’linear’,axis=0)