决策树系列(四):集成学习+boosting算法+提升树+GBDT(梯度提升决策树)_详细原理解析

1、GBDT简介

GBDT,英文全称是Gradient Boosting Decision Tree,梯度提升决策树,顾名思义,与梯度、boosting算法、决策树有关。是一种迭代的决策树算法,由多棵决策树组成,每一颗决策树也叫做基学习器,GBDT最后的结果就是将所有基学习器的结果相加。

从" GBDT累加所有树的结果作为最终结果 "这一点来看,我们就知道GBDT中的决策树是回归树,不是分类树。并且每棵树的结论并不是样本目标值本身,而是目标值的一个累加量。这就是GBDT的核心所在——每一棵树拟合的是之前所有树结论和的累加值。这个累加量在某些时候代表的是"残差 ",某些时候代表的是“残差的近似值”,这一点下面会展开。

2、集成算法

GBDT是boosting算法的一种,而boosting又是集成算法的一种,就先来讲讲集成算法,如果不想看,可直接跳到GBDT章节。

首先同步几种说法,以下几种说法代表的是同一种意思:基学习器=基分类器=基算法=基函数

什么是集成学习算法?可参考决策树系列(一):集成学习(ensemble learning)->boosting与bagging的区别。下面来简单介绍一下。集成算法,是一种提高弱分类算法准确度的方法,将多个弱分类算法(也叫做基学习器)以一定的集成方式集合在一起,然后再将弱分类器的结果以一定的融合策略融合成一个结果,作为最终的结果输出。集成算法通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。

基学习器的集成方式,大致分为以下2种:
(1)各个基学习器之间相互独立,不存在依赖关系,典型算法有bagging、随机森林;
(2)各个基学习器之间存在强依赖关系,每一个基学习器都是在前一个基学习器的基础上才能生成,典型算法有boosting。

基学习器结果的融合策略也有很多种:
(1)平均法
(2)加权平均法
(3)投票法
(4)求和法

3、boosting算法

Boosting,是集成学习算法的一种,核心思想就是:1)基学习器之间存在强依赖关系,每一个基分类器是在前一个基分类器的基础之上生成;2)将所有基学习器结果进行线性加权求和,作为最终结果输出。所以boosting算法,是一个加法模型

什么是加法模型?

3.1 加法模型

加法模型是一种算法,当集成算法中的“”结果集成策略“”是线性组合策略的时候,该算法就是一个加法模型。其核心思想是:将若干个小算法的结果进行线性组合,作为最终结果进行输出。用一个数学公式表示就是:
加法模型
什么是算法(模型)的学习/优化?

3.2 算法的学习/优化

以下几种说法代表的是同一种意思:
优化一个算法模型
= 学习一个算法模型
= 不断调整该算法模型的参数,使得该算法对样本的预测值与样本真实值之间的差异越来越小,直到达到足够小
=用一个优化方法 ,使得该算法朝着损失函数最小化的方向前进,直到满足条件

用一个算法去预测样本的目标值,我们怎么知道这个算法好不好用?看该算法对样本的预测值与样本真实值之间的差异,差异越小,说明该算法越好用。

一个算法,在最初的参数下,不能保证是好用的,此时对样本进行预测,预测值与样本真实值之间的差异,不能保证是最小的。所以我们就需要让该算法进行学习,学习的目标就是让样本预测值与真实值之间的差异最小,学习的过程就是不断调整模型参数,以缩小这个差异,直到缩小到足够小。我们平时说的算法的学习过程,就指的是这个过程。

样本预测值与其真实值之间的差异,总得有一个数学公式来表示,这个数学公式就叫做损失函数,损失函数的值就是样本预测值与真实值之间的差异(损失函数有很多种定义方式,各有优缺点,这里先不展开)。

综上,算法的学习过程,就是缩小样本预测值与真实值之间差异的过程,就是让损失函数极小化的过程。

以加法模型为例:在给定训练数据集 S = { s

  • 5
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值