数据挖掘实战：数据预处理之缺失值处理

最新推荐文章于 2023-04-28 12:01:55 发布

空腹熊猫

最新推荐文章于 2023-04-28 12:01:55 发布

阅读量1.4k

点赞数 2

分类专栏：数据挖掘实战

原文链接：https://zhuanlan.zhihu.com/p/31743196

版权

数据挖掘实战专栏收录该内容

12 篇文章 12 订阅

订阅专栏

kaggle的titanic 比赛不少题解有标准的处理流程，这里参考：Kaggle Titanic 生存预测 -- 详细流程吐血梳理尝试提取常用的缺失值处理方法

这里还是借助google colab 来学习

读取数据

import pandas as pd
data = pd.read_csv('data/train.csv')
data .info()

Age、Cabin、Embarked、Fare几个特征缺失值

<class 'pandas.core.frame.DataFrame'>
    RangeIndex: 891 entries, 0 to 890
    Data columns (total 12 columns):
    PassengerId    891 non-null int64
    Survived       891 non-null int64
    Pclass         891 non-null int64
    Name           891 non-null object
    Sex            891 non-null object
    Age            714 non-null float64
    SibSp          891 non-null int64
    Parch          891 non-null int64
    Ticket         891 non-null object
    Fare           891 non-null float64
    Cabin          204 non-null object
    Embarked       889 non-null object
    dtypes: float64(2), int64(5), object(5)
    memory usage: 83.6+ KB

处理的方法

1、如果数据集很多，但有很少的缺失值，可以删掉带缺失值的行；

例如删除Age这一列：

data=data.drop(columns='Age')
data.info()

此时Age特征就从dataframe中去掉了

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(1), int64(5), object(5)
memory usage: 76.7+ KB

2、如果该属性相对学习来说不是很重要，可以对缺失值赋均值或者众数。比如在哪儿上船Embarked这一属性（共有三个上船地点），缺失俩值，可以用众数赋值

data.Embarked[data.Embarked.isnull()] = data.Embarked.dropna().mode().values

mode表示众数。此时看到Embarked 特征也补齐了

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       891 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

或者用平均数赋值：

data.describe() 可以看到每一列不算入null的平均值

data['Age'][data.Age.isnull()] = data['Age'].mean()

然后再查看一次，平均值已经填入到Age为空的地方了

3、对于标称属性，可以赋一个代表缺失的值，比如‘U0’。因为缺失本身也可能代表着一些隐含信息。比如船舱号Cabin这一属性，缺失可能代表并没有船舱。

#replace missing value with U0
data['Cabin'] = data.Cabin.fillna('U0') # data.Cabin[data.Cabin.isnull()]='U0'

4、使用回归随机森林等模型来预测缺失属性的值。因为Age在该数据集里是一个相当重要的特征（先对Age进行分析即可得知），所以保证一定的缺失值填充准确率是非常重要的，对结果也会产生较大影响。一般情况下，会使用数据完整的条目作为模型的训练集，以此来预测缺失值。对于当前的这个数据，可以使用随机森林来预测也可以使用线性回归预测。这里使用随机森林预测模型，选取数据集中的数值属性作为特征（因为sklearn的模型只能处理数值属性，所以这里先仅选取数值特征，但在实际的应用中需要将非数值特征转换为数值特征）

from sklearn.ensemble import RandomForestRegressor

#choose training data to predict age
age_df = data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(data['Age'].notnull())]
age_df_isnull = age_df.loc[(data['Age'].isnull())]
X = age_df_notnull.values[:,1:]
Y = age_df_notnull.values[:,0]
# use RandomForestRegression to train data
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])
data.loc[data['Age'].isnull(), ['Age']]= predictAges

5、使用拉格朗日插值法

参考：

某列分组平均值填充

Kaggle Titanic 生存预测 -- 详细流程吐血梳理

空腹熊猫

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘实战：数据预处理之缺失值处理

kaggle的titanic 比赛不少题解有标准的处理流程，这里参考：Kaggle Titanic 生存预测 -- 详细流程吐血梳理尝试提取常用的缺失值处理方法这里还是借助google colab 来学习读取数据import pandas as pddata = pd.read_csv('data/train.csv')data .info()Age、Cabin、Embar...
复制链接

扫一扫

专栏目录