随机森林填充特征列的空值

最新推荐文章于 2023-07-03 22:21:41 发布

李家半仙儿

最新推荐文章于 2023-07-03 22:21:41 发布

阅读量704

点赞数 1

分类专栏：机器学习 pandas 文章标签：机器学习 python 数据分析大数据人工智能

本文链接：https://blog.csdn.net/LJBXE/article/details/115358579

版权

当数据集中特征列存在无法直接用众数或平均数填充的空值时，采用随机森林方法能提高数据准确性。步骤包括：1) 将待填充空值的特征设为标签列Y；2) 获取无空值的特征列作为X；3) 分割数据，含空值的部分为xtest，其余为xtrain；4) 同理划分ytrain和ytest；5) 使用随机森林模型预测ytest，完成空值填充。

摘要由CSDN通过智能技术生成

用随机森林填充空值

在平时候的数据集中，很多数据不太能够简单粗暴地直接填充众数或者平均值，这样填充反而会影响数据的准确性，所以需要我们对该特征列用随机森林的方法来填充空值
步骤：

取出需要填充空值的特征列当做标签列Y
将没有空值的所有特征列包括原始数据中的标签列取出来当做X
手动划分数据集：
将Y中有空值的所有行划分成xtest，Y中不是空值的列划分成xtrain
同样的方法划分ytrain, ytest
导入随机森林的模块，用xtest来预测ytest，从而将Y中所有的空值填充

data = pd.read_csv('rankingcard.csv', index_col=0)
y_month = data.MonthlyIncome
x = data.loc[:, data.columns != 'MonthlyIncome']
# 取出y里面的空的部分和不是空的部分，非空的当做训练集，空的当做预测集
xtest = x.

最低0.47元/天解锁文章

李家半仙儿

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
随机森林填充特征列的空值

用随机森林填充空值在平时候的数据集中，很多数据不太能够简单粗暴地直接填充众数或者平均值，这样填充反而会影响数据的准确性，所以需要我们对该特征列用随机森林的方法来填充空值步骤：取出需要填充空值的特征列当做标签列Y将没有空值的所有特征列包括原始数据中的标签列取出来当做X手动划分数据集：将Y中有空值的所有行划分成xtest，Y中不是空值的列划分成xtrain同样的方法划分ytrain, ytest导入随机森林的模块，用xtest来预测ytest，从而将Y中所有的空值填充data = pd.r
复制链接

扫一扫

专栏目录