XGBoost那些事儿

最新推荐文章于 2024-08-17 11:24:13 发布

Bayes_y

最新推荐文章于 2024-08-17 11:24:13 发布

阅读量559

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32502811/article/details/82666275

版权

本文深入探讨XGBoost的原理，包括其自带正则项的损失函数，使用Shrinkage和Column Subsampling防止过拟合，以及对缺失值的智能处理。此外，还介绍了XGBoost的加速方法，如特征排序和并行计算，以及模型调参的三大类别。

摘要由CSDN通过智能技术生成

仔细把陈天奇大神的论文又读了一遍，对xgBoost的原理又有了一些深入的了解吧。

XGBoost模型本身是Boosting方法，所以它的整体过程和传统的Boosting还是比较接近的，即串行化的建树过程。个人认为，XGBoost比较新奇点在于，在建树的过程中，结点分裂的时候使用的标准并不是传统的基于信息增益啊、信息增益比这类东西，而是根据损失函数自己定义了一个指标，并且在损失函数中也加入了正则项，防止了过拟合。另外的贡献就是模型加速，并行化这一方面，提出了近似算法，可以大规模的进行并行计算，极大的提高了效率。当然还有一些其他细节，接下来一一说来

自带正则项的损失函数

我们知道Boosting模型可以看作是一个加性模型，给定一个实例 $x_i$ ,它的对应的输出 $y_i$ 就可以写作： $\hat{y}_i = \sum_{k=1}^{K}{f_k(x_i)}$ ,k代表第k个树, $f(x) = \omega_{q(x)}$ ,可以认为是给定一个实例，在当前的树模型下它被映射到 $q(x_i)$ 这个结点(q可以认为是树结构)，这个结点的权重作为返回值。最终我们优化的目标就是

L (ϕ) (t)

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。