XGB笔记0218

XGB笔记
看了一篇知乎,里面对XGBoost描述的非常非常的清晰。
决策树:三种树,分为ID3(信息增益),C4.5(信息增益率),CART(基尼指数);
随机森林
决策树之间相互独立;
基于决策树的多棵树决策,简单易实现计算开销小;
基于bagging随机有放回的采样(T个包含M个样本的训练集);
基于bagging的训练过程引入随机性(在决定划分属性的时候,先随机选择一个包含k个属性的子集,然后再从子集中选择一个最优属性进行划分);
GBDT
基树采用CART回归树;
树节点的划分指标:平方损失函数;
叶子节点的值是落在该叶子节点所有样本的目标均值。
树与树之间的Boosting逻辑是:新树拟合的目标是上一课树的损失函数的负梯度的值。
GBDT最终的输出结果是将样本在所有树上的叶子值相加;
Boosting提升说明每棵树之间是有关系有序的、Gradient梯度指明了提升的方向与大小; 正则项局限性可造作性差。
XGBoost
目标函数加入了欧米茄正则项,既每一轮的迭代都有正则化;
第t轮目标函数泰勒展开经一系列操作后得到①计算叶子节点值的公式;②树节点分类的公式,即决策树不纯度的度量;③XGBoost基树分裂的依据;结合②③,就可以从第t-1棵树创建第t棵树;
XGB过程以目标函数为基础,衡量标准为目标函数最小化,贪心策略,引入泰勒展开使得建树与boosting过程仅依赖于损失函数一、二阶导数;支持自定义损失函数(二阶可导)。
总结
随机森林:Bagging采样+随机属性选择+模型集成的方法
解决决策树易过拟合,缺少可解释性;
GBDT:在随机森林的基础上融合boosting的思想建立树与树之间的联系,使森林不再是互相独立的树存在,进而成为一种有序集体决策体系;
XGBoost在GBDT的基础上,在每轮迭代的目标函数中加入正则项,减小过拟合。
相对于GBDT启发式的迭代原则,XGBoost的优化准则完全基于目标函数的最小化推导,并采用了二阶泰勒展开,使自定义损失函数成为可能。
除此之外,XGBoost同样继承了随机采样、随机属性选择、学习率等算法实用技巧,与此同时实现了属性计算级别的并行化。
参考:从决策树到XGBoost

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值