机器学习算法------5.3 Boosting（boosting集成原理、GBDT、XGBoost）

最新推荐文章于 2023-07-25 21:34:05 发布

程序猿_凡白

最新推荐文章于 2023-07-25 21:34:05 发布

阅读量505

点赞数

分类专栏：人工智能机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41855990/article/details/107485357

版权

人工智能同时被 2 个专栏收录

71 篇文章 24 订阅

订阅专栏

63 篇文章 7 订阅

订阅专栏

5.3 Boosting

学习目标

知道boosting集成原理和实现过程
了解GBDT实现流程
了解XGBoost实现流程

1.boosting集成原理

1.1 什么是boosting

在这里插入图片描述

随着学习的积累从弱到强

简而言之：每新加入一个弱学习器，整体能力就会得到提升

代表算法：Adaboost，GBDT，XGBoost

1.2 实现过程：

1.训练第一个学习器

在这里插入图片描述

2.调整数据分布

在这里插入图片描述

3.训练第二个学习器

在这里插入图片描述

4.再次调整数据分布

在这里插入图片描述

5.依次训练学习器，调整数据分布

在这里插入图片描述

6.整体过程实现

在这里插入图片描述

关键点：

如何确认投票权重？

如何调整数据分布？

在这里插入图片描述

在这里插入图片描述

AdaBoost的构造过程小结

在这里插入图片描述

bagging集成与boosting集成的区别：

区别一:数据方面

Bagging：对数据进行采样训练；

Boosting：根据前一轮学习结果调整数据的重要性。

区别二:投票方面

Bagging：所有学习器平权投票；

Boosting：对学习器进行加权投票。

区别三:学习顺序

Bagging的学习是并行的，每个学习器没有依赖关系；

Boosting学习是串行，学习有先后顺序。

区别四:主要作用

Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差）

Boosting主要用于提高训练精度（解决欠拟合，也可以说降低偏差）

在这里插入图片描述

1.3 api介绍

from sklearn.ensemble import AdaBoostClassifier
- api链接:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html#sklearn.ensemble.AdaBoostClassifier

2 GBDT(了解)

梯度提升决策树(GBDT Gradient Boosting Decision Tree) 是一种迭代的决策树算法，**该算法由多棵决策树组成，所有树的结论累加起来做最终答案。**它在被提出之初就被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

GBDT = 梯度下降 + Boosting + 决策树

2.1 梯度的概念(复习)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.2 GBDT执行流程

在这里插入图片描述

如果上式中的hi(x)=决策树模型,则上式就变为:

GBDT = 梯度下降 + Boosting + 决策树

2.3 案例

预测编号5的身高:
在这里插入图片描述

第一步:计算损失函数,并求出第一个预测值:

在这里插入图片描述

第二步:求解划分点

在这里插入图片描述

得出:年龄21为划分点的方差=0.01+0.0025=0.0125

第三步:通过调整后目标值,求解得出h1(x)

在这里插入图片描述

第四步:求解h2(x)

在这里插入图片描述

… …

得出结果:

在这里插入图片描述

编号5身高 = 1.475 + 0.03 + 0.275 = 1.78

2.4 GBDT主要执行思想

1.使用梯度下降法优化代价函数；

2.使用一层决策树作为弱学习器，负梯度作为目标值；

3.利用boosting思想进行集成。

3.XGBoost【了解】

XGBoost= 二阶泰勒展开+boosting+决策树+正则化

面试题：了解XGBoost么，请详细说说它的原理

回答要点：二阶泰勒展开，boosting，决策树，正则化

Boosting：XGBoost使用Boosting提升思想对多个弱学习器进行迭代式学习

二阶泰勒展开：每一轮学习中，XGBoost对损失函数进行二阶泰勒展开，使用一阶和二阶梯度进行优化。

决策树：在每一轮学习中，XGBoost使用决策树算法作为弱学习进行优化。

正则化：在优化过程中XGBoost为防止过拟合，在损失函数中加入惩罚项，限制决策树的叶子节点个数以及决策树叶子节点的值。

4 什么是泰勒展开式【拓展】

在这里插入图片描述

泰勒展开越多，计算结果越精确

5 小结

boosting集成原理【了解】
- 随着学习的积累从弱到强
实现过程【知道】
- 1.初始化训练数据权重，初始权重是相等的
- 2.通过这个学习器，计算错误率
- 3.计算这个学习器的投票权重
- 4.对每个样本进行重新赋权
- 5.重复前面1-4
- 6.对构建后的最后的学习器进加权投票
bagging集成与boosting集成的区别：【知道】
- 数据方面：
  - bagging:重新采样
  - boosting:对数据进行权重调整
- 投票方面：
  - bagging:平权
  - boosting:加权
- 学习顺序方面：
  - bagging:并行
  - boosting:串行
- 主要作用：
  - bagging:过拟合
  - boosting:欠拟合
梯度提升决策树(GBDT Gradient Boosting Decision Tree)【了解】
- GBDT = 梯度下降 + Boosting + 决策树
XGBoost【了解】
- XGBoost= 二阶泰勒展开+boosting+决策树+正则化

程序猿_凡白

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。