正则化贪婪森林(RGF)的学习指南

作为一名多次参加机器学习竞赛的数据科学家,我一直在寻找“不太流行”的算法。我对它们的定义是这些算法本身可能不会成为竞争的赢家。但它们为预测带来了不同的方式。

为什么我对这些算法感兴趣?关键是可以在集成模型中使用,以获得比大多数流行的梯度增强算法(XGBoost、LightGBM等)更多的优势。
本文讨论了一种被称为正则化贪婪森林的算法。它的性能可以与针对大量数据集的Boosting算法媲美。该算法模型间产生的相关预测较少,并且与其他树提升模型很好地集成在一起。

一、RGF vs Gradient Boosting

在Boosting算法中,每个分类器/回归器都是基于数据进行训练的,同时考虑到之前分类器/回归器的结果。在每个训练步骤之后权重会被重新分配,错误分类的数据增加其权重。这样后续的学习者在训练过程中就会把注意力集中在错误分类的部分。

gbdt_attractive_picture.png

然而,该方法将决策树基础学习者简单地看作是一个黑盒子,并没有利用树结构本身的优势。从某种意义上说,每次迭代时,boost都会对模型执行部分纠正步骤。
相比之下,RGF执行两个步骤:

  • 对当前森林进行一步结构更改,以获得最小化损失函数的新森林(例如最小二乘法或logloss)

  • 调整整个森林的叶重,使损失函数最小化

其中寻找最优结构变化:
1、为提高计算效率,搜索策略中只执行两种类型的操作:

  • 分割现有的叶节点

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值