XGBoost: A Scalable Tree Boosting System 笔记

本文深入探讨了XGBoost的原理和系统设计,包括树增强的正则化目标、梯度提升算法、收缩和列采样防止过拟合,以及分裂查找算法的优化策略,如分位数近似和稀疏数据处理。XGBoost通过并行学习、缓存优化和外存计算等方法实现了高效的系统设计。
摘要由CSDN通过智能技术生成

刚开始接触xgboost是在解决一个二分类问题时学长介绍。在没有接触这篇论文前,我以为xgboost一个很厉害的algorithm,但是从论文title来看,xgboost实际是一个system,论文重点介绍了xgb整个系统是如何搭建以及实现的,在模型算法的公式改进上只做了一点微小的工作。

论文的major contribution:

  • We design and build a highly scalable end-to-end tree boosting system.
  • We propose a theoretically justified weighted quantile sketch for efficient proposal calculation.
  • We introduce a novel sparsity-aware algorithm for par- allel tree learning.
  • We propose an effective cache-aware block structure for out-of-core tree learning.

Abstract + 第一章Introduction主要介绍了xgboost的major contribution以及xgboost目前所取得的成绩,在此不再赘述。以下文字开始进入论文的核心部分:

第二章 TREE BOOSTING IN A NUTSHELL

2.1 Regularized Learning Objective

假设存在数据集,m为特征数量,n为样本数量。假设存在一个模型,由K个课树组成,我们用以下公式来表示这个模型:

其中  ,表示第k棵树对 x_i 这个样本进行预测得到的结果;T表示该棵树模型的叶子节点的数量; w_t 表示这棵树中第t个叶子节点的权重,也就是预测值;q(x)这个函数表示找到 x_i 所属的叶子节点的下标。

以上定义了树模型的预测函数,接下来定义整个目标函数:

这里 l(\cdot ) 是一个可导的凸函数,用来表示 预测值 \widehat{y}和真实值y之间的差异,可以用MSE来衡量;\Omega是惩罚项,用来防止树的结构过于复杂

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值