随机森林填充特征列的空值

用随机森林填充空值

在平时候的数据集中,很多数据不太能够简单粗暴地直接填充众数或者平均值,这样填充反而会影响数据的准确性,所以需要我们对该特征列用随机森林的方法来填充空值
步骤:

  • 取出需要填充空值的特征列当做标签列Y
  • 将没有空值的所有特征列包括原始数据中的标签列取出来当做X
  • 手动划分数据集:
  • 将Y中有空值的所有行划分成xtest,Y中不是空值的列划分成xtrain
  • 同样的方法划分ytrain, ytest
  • 导入随机森林的模块,用xtest来预测ytest,从而将Y中所有的空值填充
data = pd.read_csv('rankingcard.csv', index_col=0)
y_month = data.MonthlyIncome
x = data.loc[:, data.columns != 'MonthlyIncome']
# 取出y里面的空的部分和不是空的部分,非空的当做训练集,空的当做预测集
xtest = x.
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林填充的原理是利用随机森林模型来预测缺失。具体步骤如下: 1. 首先,将数据集分为两部分,一部分是有缺失特征矩阵,另一部分是没有缺失特征矩阵。 2. 对于有缺失特征矩阵,将缺失用0填充,形成一个新的特征矩阵。 3. 使用随机森林回归模型来训练新的特征矩阵和对应的标签。 4. 在训练好的模型中,将有缺失特征矩阵作为输入,预测缺失。 5. 将预测得到的缺失填入原始特征矩阵中的对应位置,得到填充好缺失特征矩阵。 通过这种方法,利用随机森林模型的预测能力,可以较为准确地填充缺失,提高数据的完整性和可用性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [利用随机森林填补缺失](https://blog.csdn.net/Ayingpan/article/details/115280784)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [(机器学习)随机森林填补缺失的思路和代码逐行详解](https://blog.csdn.net/m0_46177963/article/details/109673426)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值