xgboost的理解

最新推荐文章于 2024-08-17 11:24:13 发布

冥更

最新推荐文章于 2024-08-17 11:24:13 发布

阅读量4k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_24852439/article/details/88406551

版权

本文详细介绍了xgboost的原理，包括回归树和分类树的概念，集成学习中的GBDT和xgboost，以及xgboost如何通过优化目标函数和正则项来防止过拟合。通过实例展示了xgboost如何逐步构建模型以减小预测误差，强调了其在损失函数和树的复杂度之间取得平衡的重要性。

摘要由CSDN通过智能技术生成

参考July的博客对xgboost有了一些理解

1.回归树和分类树

xgboost是由多个CART（分类回归树，Classification And Regression Tree）集成，首先需要理解分类树和回归树的概念
分类树和回归树的概念较为相似，不同的是分类分析是预测结果所属的类别，例如预测房价是涨还是跌；回归分析则是预测结果的确切值，例如预测房价的具体值。
在解决分类树问题时一般使用信息增益（ID3)、信息增益率(C4.5)、基尼系数(CART)来判定树的节点分裂。决策树中对这几个概念有较详细的介绍。

熵是度量样本集合纯度常用的一种指标定义如下：

对于回归树，则需要一些评价误差来进行评估。
在这里插入图片描述

2.集成学习

所谓集成学习，是指构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果，它要求每个弱分类器具备一定的“准确性”，分类器之间具备“差异性”。
集成学习根据各个弱分类器之间有无依赖关系，分为Boosting和Bagging两大流派：

Boosting流派，各分类器之间有依赖关系，必须串行，比如Adaboost、GBDT(Gradient Boosting Decision Tree)、Xgboost
Bagging流派，各分类器之间没有依赖关系，可各自并行，比如随机森林（Random Forest）

AdaBoost，是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。
具体说来，整个Adaboost 迭代算法就3步：

初始化训练数据的权值分布。如果有N个样本，则每一个训练样本最开始时都被赋予相同的权值：1/N。

训练弱分类器。具体训练过程中，如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它的权值就被降低；相反，如果某个样本点没有被准确地分类，那么它的权值就得到提高。然后，权值更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。

将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着