gtb分类器参数调节_机器学习算法梯度树提升GTB(GBRT)

本文介绍了梯度树提升算法(GTB),一种以决策树为基础的组合算法,用于回归和分类任务。GTB通过迭代学习,每棵树针对前一棵树的残差进行训练,减少了过拟合的风险。在scikit-learn中,GTB提供了多种损失函数选择。与其他基于决策树的组合算法如Adaboost和随机森林相比,GTB在梯度方向上构建新模型以减少残差。
摘要由CSDN通过智能技术生成

Introduction

决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不太理想。

模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,如randomForest、Adaboost、GBRT等,这些算法最终的结果是生成N(可能会有几百棵以上)棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠赛过一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单(相对于C4.5这种单决策树而言),但是他们组合起来确是很强大。虽然这些算法都是通过决策树演变过来的,但在处理的过程上有着一些差异,我会在后面对此做一个本质上的比较。下面先来介绍下本文的梯度提升算法。

Gradient Tree Boosting

梯度树提升(Gradient Tree Boosting)是一种组合算法,也叫做梯度提升回归树(gradient boosting regression tree),它的基分类器是决策树,既可以用来回归,也可以用作分类。在分类性能上,能够和随机森林媲美,甚至在有的数据集上表现的有过之而无不及。如今,Gradient Tree Boosting模型已经广泛的运用在Web搜索排行榜以及生态学上。在阿里内部也用的比较多,所以值得我们去花点时间认真学习。

根据scikit-learn官网的介绍,GBRT的优势有:

自然而然地处理混合类型的数据 预测能力强 在输出空间对于异常值的鲁棒性强(通过强大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值