pandas是常用的Python数据处理包,把csv文件读入成dataframe各式,我们在ipython notebook中,看到data_train如下所示:
这就是典型的dataframe格式
我们会有一些常用的对付缺失值的方法:
(1)丢弃有缺失值的变量:这种方法一般不建议采用,毕竟数据收集本身是件伤神的事,但如果缺失比例极其严重,那么这种变量就可以果断的丢弃,因为其本身不能带来更多的信息(在这里探究为什么缺失可能更重要)。
(2)用一种特殊的字符来填充缺失值:这种方法的内核其实是将缺失值当成一类去对待,认为缺失本身是一种信息,应该保持它的独立性。但这种方法比较适合类别变量,若要对连续变量使用该方法,需要首先对连续变量离散化,变成和类别变量一样的形式。
# 缺失值填充
df['Cabin'][df.Cabin.isnull()] = 'U0'
(3)赋平均值/众数:当缺失比例不算严重且变量本身不那么重要时,连续变量可以填充平均值,类别变量可以填充众数。
# 均值填充
df['Fare'][ np.isnan(df['Fare']) ] = df['Fare'].median()
# 众数填充
df.Embarked[ df.Embarked.isnull() ] = df.Embarked.dropna().mode().values
(4)利用模型预测值填充:“年龄”这个变量看上去比较重要。毕竟副船长当时坚持“小孩和女士先走”。如果这里直接用均值填充会损失较多信息,所以这里采用随机森林回归树模型建立年龄的预测模型,并将预测值填充缺失值的位置(应该评估此模型的准确度):