XGB笔记0218

最新推荐文章于 2022-04-26 09:23:13 发布

m0_37910349

最新推荐文章于 2022-04-26 09:23:13 发布

阅读量112

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37910349/article/details/113846420

版权

XGB笔记
看了一篇知乎，里面对XGBoost描述的非常非常的清晰。
决策树：三种树，分为ID3（信息增益），C4.5（信息增益率），CART（基尼指数）；
随机森林：
决策树之间相互独立；
基于决策树的多棵树决策，简单易实现计算开销小；
基于bagging随机有放回的采样（T个包含M个样本的训练集）；
基于bagging的训练过程引入随机性（在决定划分属性的时候，先随机选择一个包含k个属性的子集，然后再从子集中选择一个最优属性进行划分）；
GBDT：
基树采用CART回归树;
树节点的划分指标:平方损失函数;
叶子节点的值是落在该叶子节点所有样本的目标均值。
树与树之间的Boosting逻辑是：新树拟合的目标是上一课树的损失函数的负梯度的值。
GBDT最终的输出结果是将样本在所有树上的叶子值相加；
Boosting提升说明每棵树之间是有关系有序的、Gradient梯度指明了提升的方向与大小；正则项局限性可造作性差。
XGBoost：
目标函数加入了欧米茄正则项，既每一轮的迭代都有正则化；
第t轮目标函数泰勒展开经一系列操作后得到①计算叶子节点值的公式；②树节点分类的公式，即决策树不纯度的度量；③XGBoost基树分裂的依据；结合②③，就可以从第t-1棵树创建第t棵树；
XGB过程以目标函数为基础，衡量标准为目标函数最小化，贪心策略，引入泰勒展开使得建树与boosting过程仅依赖于损失函数一、二阶导数；支持自定义损失函数（二阶可导）。
总结：
随机森林：Bagging采样+随机属性选择+模型集成的方法
解决决策树易过拟合，缺少可解释性；
GBDT：在随机森林的基础上融合boosting的思想建立树与树之间的联系，使森林不再是互相独立的树存在，进而成为一种有序集体决策体系；
XGBoost在GBDT的基础上，在每轮迭代的目标函数中加入正则项，减小过拟合。
相对于GBDT启发式的迭代原则，XGBoost的优化准则完全基于目标函数的最小化推导，并采用了二阶泰勒展开，使自定义损失函数成为可能。
除此之外，XGBoost同样继承了随机采样、随机属性选择、学习率等算法实用技巧，与此同时实现了属性计算级别的并行化。
参考：从决策树到XGBoost

m0_37910349

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
XGB笔记0218

XGB笔记看了一篇知乎，里面对XGBoost描述的非常非常的清晰。决策树：三种树，分为ID3（信息增益），C4.5（信息增益率），CART（基尼指数）；随机森林：决策树之间相互独立；基于决策树的多棵树决策，简单易实现计算开销小；基于bagging随机有放回的采样（T个包含M个样本的训练集）；基于bagging的训练过程引入随机性（在决定划分属性的时候，先随机选择一个包含k个属性的子集，然后再从子集中选择一个最优属性进行划分）；GBDT：基树采用CART回归树;树节点的划分指标:平方损失函
复制链接

扫一扫