台湾国立大学（林轩田）《机器学习技法》（第11讲）Gradient Boosted Decision Tree（GBDT）（未完成！！！）

最新推荐文章于 2021-11-11 10:49:33 发布

九方先生

最新推荐文章于 2021-11-11 10:49:33 发布

阅读量262

点赞数

分类专栏：机器学习技法—台湾大学文章标签：机器学习技法林轩田 GBDT

本文链接：https://blog.csdn.net/malele4th/article/details/79192308

版权

机器学习技法—台湾大学专栏收录该内容

16 篇文章 0 订阅

订阅专栏

课程地址：https://class.coursera.org/ntumlone-001/class
课件讲义：http://download.csdn.net/download/malele4th/10212756
注明：文中图片来自《机器学习技法》课程和部分博客
建议：建议读者学习林轩田老师原课程，本文对原课程有自己的改动和理解

Lecture 11 Gradient Boosted Decision Tree

上节课我们主要介绍了Random Forest算法模型。Random Forest就是通过bagging的方式将许多不同的decision tree组合起来。除此之外，在decision tree中加入了各种随机性和多样性，比如不同特征的线性组合等。RF还可以使用OOB样本进行self-validation，而且可以通过permutation test进行feature selection。本节课将使用Adaptive Boosting的方法来研究decision tree的一些算法和模型。

这里写图片描述

每个犯错误的样本点乘以相应的权重，求和再平均，最终得到了 $E^u_{in}(h)$ 。如果在决策树中使用这种方法，将当前分支下犯错误的点赋予权重，每层分支都这样做，会比较复杂，不易求解。为了简化运算，保持决策树算法本身的稳定性和封闭性，我们可以把决策树算法当成一个黑盒子，即不改变其结构，不对算法本身进行修改，而从数据来源D’上做一些处理。按照这种思想，我们来看权重u实际上表示该样本在bootstrap中出现的次数，反映了它出现的概率。那么可以根据u值，对原样本集D进行一次重新的随机sampling，也就是带权重的随机抽样。sampling之后，会得到一个新的D’，D’中每个样本出现的几率与它权重u所占的比例应该是差不多接近的。因此，使用带权重的sampling操作，得到了新的样本数据集D’，可以直接代入决策树进行训练，从而无需改变决策树算法结构。sampling可看成是bootstrap的反操作，这种对数据本身进行修改而不更改算法结构的方法非常重要！

这里写图片描述

所以，AdaBoost-DTree结合了AdaBoost和DTree，但是做了一点小小的改变，就是使用sampling替代权重u(t)，效果是相同的。

这里写图片描述

因此，AdaBoost-DTree使用的是pruned DTree，也就是说将这些预测效果较弱的树结合起来，得到最好的G，避免出现autocracy。

这里写图片描述

刚才我们说了可以限制树的高度，那索性将树的高度限制到最低，即只有1层高的时候，有什么特性呢？当树高为1的时候，整棵树只有两个分支，切割一次即可。如果impurity是binary classification error的话，那么此时的AdaBoost-DTree就跟AdaBoost-Stump没什么两样。也就是说AdaBoost-Stump是AdaBoost-DTree的一种特殊情况。

这里写图片描述

值得一提是，如果树高为1时，通常较难遇到ϵt=0的情况，且一般不采用sampling的操作，而是直接将权重u代入到算法中。这是因为此时的AdaBoost-DTree就相当于是AdaBoost-Stump，而AdaBoost-Stump就是直接使用u来优化模型的。

2 Optimization view of AdaBoost

3 Gradient Boosting

4 Summary of Aggregation Models

5 总结

本节课主要介绍了Gradient Boosted Decision Tree。首先讲如何将AdaBoost与Decision Tree结合起来，即通过sampling和pruning（修剪）的方法得到AdaBoost-D Tree模型。然后，我们从optimization的角度来看AdaBoost，找到好的hypothesis也就是找到一个好的方向，找到权重α也就是找到合适的步进长度。接着，我们从binary classification的0/1 error推广到其它的error function，从Gradient Boosting角度推导了regression的squared error形式。Gradient Boosting其实就是不断迭代，做residual fitting。并将其与Decision Tree算法结合，得到了经典的GBDT算法。最后，我们将所有的aggregation models做了总结和概括，这些模型有的能防止欠拟合有的能防止过拟合，应用十分广泛。

九方先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
台湾国立大学（林轩田）《机器学习技法》（第11讲）Gradient Boosted Decision Tree（GBDT）（未完成！！！）

课程地址：https://class.coursera.org/ntumlone-001/class 课件讲义：http://download.csdn.net/download/malele4th/10212756 注明：文中图片来自《机器学习技法》课程和部分博客建议：建议读者学习林轩田老师原课程，本文对原课程有自己的改动和理解Lecture 11 Gradient Boo
复制链接

扫一扫