xgboost ppt(2)——回归树和组合


回归树(cart)

1、回归树(也可以叫做分类回归树),加入gbdt是回归树,但是根据最终的回归结果给一个阈值,也可以做分类。

(1)与决策树的决策规则是一样的。对于cart回归,主要是保证MSE最小来确定分裂点

(2)在每一个叶子节点都会有一个值,也就是回归结果

如上面的图所示:输入年龄,性别等特征,来预测叶子节点的值。


组合回归树

如下面的图所示,这个组合由两个回归树构成。

预测的结果就是每棵树预测结果的和

注意:这两棵树是串行的


组合树方法

1、非常广泛的用在梯度提升机,随机森林等场景。。。

多半的数据挖掘竞赛的获胜者都是采用组合方法的一些变换形式。

2、对于输入的缩放比例具有不变性,所以你不需要很仔细的去做特征归一化

3、能够学习特征间更高阶的相互作用,树是有层级的,下一层是基于上一层的,他们之间是有制约关系的,多棵树,就会形成高阶影响关系。

4、很稳定,用于工业生产


放入上下文:模型和参数

1、假设我们有k棵树,然后将这k个树进行组合。回归树就是从属性到分数的映射。

2、参数:

(1)包含每棵树的结构以及叶子节点的分数

(2)之前我们是学习权重,现在我们需要学习树


在只有一个变量的情况下学习一棵树

1、我们怎么学习函数呢?

2、定义目标函数(loss和正则),并且对他们优化

举个例子

(1)假设输入为t(时间)上的回归树

(2)我想预测在特定的时间t,我是否喜欢流行音乐

从下面的图可以看出来,这有两个时间点,一个是2011.3.1,一个是2010.3.20,所以分为三个区间:

(1)2010.3.20之前:喜欢音乐的分数是0.2

(2)2010.3.20-2011.3.1:分数是1.2,原因是遇到女朋友,喜欢浪漫音乐

(3)2011.3.20之后:分数是1.0


学习一个阶跃函数

1、我们需要进行学习的部分

(1)分裂点

(2)每段的值

2、单变量回归树的损失函数

(1)训练loss:重点关注的是拟合这些点

(2)正则化:重点关注这个函数的复杂度,比如说分裂点的个数,每段值的L2范数等等。


学习阶跃函数

我们看着四幅图能看出什么呢?

(1)第一张图是我的训练数据,我就是要拟合它

(2)第二张图是分裂点很多,这样对训练集拟合的很好,但是呢,模型也太复杂了,在测试集上表现不一定好哦~方差大~

(3)第三张图发现分裂点找的有点偏了,导致拟合的不准,这样MSE就会变大的,偏差大

(4)在损失和复杂度上达到了平衡


回过头来:组合树的目标函数

1、模型:假设k棵树,用加法模型来表示

2、目标函数:包括两个部分,训练loss和树的复杂度

3、定义复杂度的可能形式:

(1)树的节点数目,树的深度

(2)叶子节点权重的L2范数

(3)后面会更加详细的介绍


目标函数以及启发性学习

1、当讨论决策树的时候,往往是启发式的:

(1)根据信息增益找分裂点

(2)剪枝

(3)最大树深度

(4)叶子值的平滑度

2、大部分启发式都会对目标函数进行良好的映射

(1)信息增益--训练loss

(2)剪枝--节点的正则化

(3)最大深度--确定函数复杂空间

(4)叶子值得平滑度--叶子权重的L2正则化

补充:啥是启发式学习?

通俗的说:启发式算法是指在一个随机的群体寻优过程中,个体能够利用自身或者全局的经验来制定各自的搜索策略


回归树不仅仅是为了回归

1、回归树组合定义了如何预测分数,它可以被用于分类、回归、排名等等

2、取决于你怎么去定义目标函数

(1)MSE --- GBDT --- 回归

(2)logloss --- logitboost ---- 分类

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值