缺失值的处理方法有很多。例如,剔除缺失值、简单的均值填充、缺失值多变量填补等方法。接下来使用具体的数据集,结合Python库中的相关函数,介绍如何处理数据中的缺失值。将会介绍如何使用Python发现数据中的缺失值,以及使用一些简单的方法对缺失值进行处理,例如:剔除、均值填充等缺失值处理方法。
## 输出高清图像%config InlineBackend.figure_format = 'retina'%matplotlib inline## 图像显示中文的问题import matplotlibmatplotlib.rcParams['axes.unicode_minus']=Falseimport seaborn as sns sns.set(font= "Kaiti",style="ticks",font_scale=1.4)## 导入本小节会使用到的包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns import missingno as msno
发现数据中的缺失值
在对数据进行缺失值处理时,第一步要做的就是分析数据中是否存在缺失值,以及缺失值存在的形式。下面导入一个真实的数据集,介绍发现数据是否有缺失值的方法。针对导入的数据表,可以使用pd.isna()方法,判断每个位置是否为缺失值,例如使用pd.isna(oceandf).sum(),在判断数据oceandf中的每个元素是否为缺失值后,使用sum()方法,对每列求和,可以计算出每个变量缺失值的数量,相关输出如下所示:
## 读取用于演示的数据集oceandf = pd.read_csv("data/chap2/热带大气海洋数据.csv")## 判断每个变量中是否存在缺失值pd.isna(oceandf).sum()Year 0Latitude 0Longitude 0SeaSurfaceTemp 3AirTemp 8