xgboost
以陈天奇的PPT和论文为基础,结合官方文档,对XGBoost相关知识点进行较为全面的梳理。
Fiona-Dong
这个作者很懒,什么都没留下…
展开
-
(一) 前言
XGBoost系列,将以陈天奇的PPT和论文为基础,结合官方文档,对XGBoost相关知识点进行较为全面的梳理。翻译 2019-12-08 15:19:47 · 83 阅读 · 0 评论 -
(二)监督学习
1. 什么是监督学习监督学习(supervised learning),通俗来说,就是学习一个模型,使模型对任意给定的输入值,给出一个贴近相应真实输出的预测值。主要由以下三个重要部分组成:模型、参数、目标函数。2. 模型简单来说,可以理解为定义一个明确的公式,表示输入和输出之间的关系。在已知输入后,能计算得到固定的输出。举例如下:假设所用模型为常见的线性模型,则有预测值的加权求和公式:...翻译 2019-12-08 15:21:20 · 255 阅读 · 0 评论 -
(三) 回归树与集成
1. 回归树(CART)回归树,也称分类与回归树(classification and regression tree),是二叉树,即左分支取值为“是”,右分支取值为“否”。CART的决策流程与传统的决策树相同,但不同点在于,每个叶节点会产生一个预测分数。以下图为例,目的是:判断每个家庭成员是否喜欢电子游戏。可输入的一系列特征,包括:年龄、性别、电脑使用情况等。以年龄特征为例,按照「年龄...翻译 2019-12-08 15:24:32 · 1015 阅读 · 0 评论 -
(四) 梯度提升
1. 如何学习目标函数:Obj=∑i=1nl(yi,yi^)+∑k=1KΩ(fk),fk∈FObj = \sum_{i=1}^{n}l(y_i, \hat{y_i}) + \sum_{k=1}^{K}\Omega(f_k),f_k\in \mathcal{F}Obj=∑i=1nl(yi,yi^)+∑k=1KΩ(fk),fk∈F此时,我们不能使用诸如SGD(随机梯度下降)的方法,去...翻译 2019-12-08 15:25:20 · 317 阅读 · 0 评论 -
(五) 系统设计
XGBoost的成功主要归因于,各种场景下的可拓展性。该系统在单机上的运行速度,比现存的其他方案快10倍。在分布式或内存配置下,可拓展支持数十亿的样本量。XGBoost的可拓展性,源于系统和算法层面的优化。主要贡献,包括:设计并构建了一个高可拓展的端到端的树提升系统,能在集群资源使用最少的情况下,处理更大的数据量。引入了一种新型的稀疏感知的学习算法,以供并行树学习。提出了一种带权分位方...翻译 2019-09-08 20:59:51 · 238 阅读 · 0 评论