用随机森林填充空值
在平时候的数据集中,很多数据不太能够简单粗暴地直接填充众数或者平均值,这样填充反而会影响数据的准确性,所以需要我们对该特征列用随机森林的方法来填充空值
步骤:
- 取出需要填充空值的特征列当做标签列Y
- 将没有空值的所有特征列包括原始数据中的标签列取出来当做X
- 手动划分数据集:
- 将Y中有空值的所有行划分成xtest,Y中不是空值的列划分成xtrain
- 同样的方法划分ytrain, ytest
- 导入随机森林的模块,用xtest来预测ytest,从而将Y中所有的空值填充
data = pd.read_csv('rankingcard.csv', index_col=0)
y_month = data.MonthlyIncome
x = data.loc[:, data.columns != 'MonthlyIncome']
# 取出y里面的空的部分和不是空的部分,非空的当做训练集,空的当做预测集
xtest = x.