XGBoost：理论基础与模型应用(二) 集成模型

最新推荐文章于 2022-07-02 09:30:00 发布

BUCT_Yanglp

最新推荐文章于 2022-07-02 09:30:00 发布

阅读量209

点赞数

分类专栏：高效率机器学习进阶文章标签：算法 python 机器学习人工智能

本文链接：https://blog.csdn.net/m0_47267927/article/details/119786336

版权

高效率机器学习进阶专栏收录该内容

2 篇文章 0 订阅

订阅专栏

XGBoost：理论基础与模型应用

XGBoost：理论基础与模型应用(一) 决策树模型

文章目录

XGBoost：理论基础与模型应用
集成学习
- 集成学习介绍

集成学习

集成学习是当前机器学习领域热点研究问题之一，近年来研究成果层出不穷，在诸如Kaggle等知名机器学习、数据竞赛中也屡屡崭露头角。XGBoost与谷歌所开发的LightGBM(轻量级梯度提升机)则并称为集成学习的倚天屠龙。

集成学习介绍

集成学习的基本思想是把多个学习器通过一定方法进行组合，以达到最终效果的提升。虽然每个学习器对全局数据的预测精度不一定高，但在某一方面的预测精度可能比较高，将多个学习器进行组合，通过优势互补即可达到强学习器的效果。集成学习最早来自于Valiant提出的PAC(Probably Approximately Correct)学习模型，该模型首次定义了弱学习和强学习的概念：识别准确率仅比随机猜测高一些的学习算法为弱学习算法；识别准确率很高并能在多项式时间内完成的学习算法称为强学习算法。1990年，Schapire对其进行了肯定的证明。目前集成学习中最具代表性的方法是：Boosting、Bagging和Stacking。

Boosting

Boosting方法会训练一系列的弱学习器，并将所有学习器的预测结果组合起来作为最终预测结果，在学习过程中，下一个学习器会更关注先前学习器学习中的错误。1995年，Freund等人提出了AdaBoost，成为了Boosting代表性的算法。AdaBoost继承了Boosting的思想，并为每个弱学习器赋予不同权值，将所有弱学习器的权重和作为预测的结果，以达到强学习器的效果。Gradient Boosting是Boosting思想的另外一种实现方法，由Friedman于1999年提出。与AdaBoost不同的是，它将损失函数梯度下降的方向作为优化的目标，新的学习器建立在之前学习器损失函数梯度下降的方向，代表算法由GBDT、XBoost等。一般认为，Boosting可以有效提高模型的准确性，但各个学习器之间只能串行生成，时间开销较大。

Bagging

Bagging(Bootstrap Aggregating)对数据集进行有放回采样，得到多个数据集的随机采样子集，用这些随机子集分别对多个学习器进行训练（对于分类任务，采用简单投票法；对于回归任务采用简单平均法），从而得到最终预测结果。随机森林是Bagging最具代表性的应用，将Bagging的思想应用于决策树，并进行了一定的扩展。一般情况下，Bagging模型的精度要比Boosting低，但其各学习器可并行进行训练，节省大量时间开销。