xgboost
文章平均质量分 95
cyber19
一只头条推荐工程狮
邮箱:zzliangx@gmail.com
Keep learning~
展开
-
XGBoost解析系列-数据加载
前言XGBoost数据加载1 DMatrixLoad主流程2 解析器parser构建过程3 DMatrix对象构建过程0.前言 本文主要介绍XGBoost中数据加载过程,主要是DMatrix::Load内容。1. XGBoost数据加载1.1 DMatrix::Load主流程 数据集加载语句为:std::shared_ptr<DMatrix> dtrain(DMatrix::Load(p原创 2017-12-04 01:52:38 · 5735 阅读 · 0 评论 -
XGBoost解析系列--源码主流程
前言入口过程Train过程1 Train主框架2 UpdateOneIter流程21 LazyInitDMatrix过程22 PredictRaw过程23 obj_-GetGradient过程24 gbm_-DoBoost过程241 分裂过程242 剪枝过程0.前言 本文介绍XGBoost的源代码流程,先梳理源码主干流程,方便读者理解,结合函数名进行说明具体逻辑与功能。如果读者原创 2017-12-03 01:45:49 · 18855 阅读 · 1 评论 -
分布式GK Summary算法
前言背景分布式GK Summary算法1 Merge操作2 Prune操作参考文献0.前言 本文主要介绍分布式GK Summay算法,考虑分布式流式数据库场景,博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容,本文仅提取出关键内容加入笔者的个人理解,有错误还望谅解与告知。1.背景 现在考虑分布式流式数据库,流式数据来源如下图: 上图中每个Process原创 2017-11-29 00:31:05 · 2460 阅读 · 0 评论 -
Fast Algorithm for GK Summary算法
前言算法思路1 数据量固定的算法2 数据量固定的算法复杂度3 流式数据算法4 流式算法复杂度分析参考文献0.前言 本文主要介绍Zhang and Wang利用GK Summary的Merge与Prune操作来构建新的ϵ−approximate quantile summary\epsilon-approximate \ quantile \ summary,提出了A Fast quan原创 2017-11-30 00:25:44 · 1710 阅读 · 1 评论 -
XGBoost解析系列-准备
前言代码准备编译准备debug编译配置VS Code可视化调试0.前言 研究生期间有幸和各路大腿参加过些机器学习与数据挖掘的比赛,发现xgboost单模型分类与回归效果往往比其他模型LR、RF、SVM、GDBT模型要好上不少,现在Microsoft还出LightGBM,首秀就在滴滴大赛中摘得10w美刀桂冠。当然也不好一概而论,比赛场景有限,数据特征处理偏稠密方式,比如图像领域CNN效果模型原创 2017-11-18 21:19:50 · 4712 阅读 · 1 评论 -
XGBoost解析系列-原理
前言Boosting算法框架XGBoost优化XGBoost算法XGBoost工程优化XGBoost算法复杂度参考资料0.前言 解析源码之前,还是介绍说明下XGBoost原理,网上对于XGBoost原理已有各种版本的解读。而这篇博客,笔者主要想根据自己的理解,梳理看过的XGBoost资料,包括陈天奇的论文以及引用论文内容,本文主要内容基于陈天奇的论文与PPT,希望能够做到系统地介绍XG原创 2017-11-26 00:01:10 · 11818 阅读 · 3 评论 -
GK Summay算法(ϵ−approximate ϕ−quantile)
前言背景GK Summary算法1 GK Summary定义2 GK Summary插入insert3 GK Summary删除delete与compress4 GK Summary算法参考文献0.前言 XGBoost不仅能在单机上通过OMP实现高度并行化,还能通过MPI接口与近似分位点算法(论文中是weighted quantiles sketch)实现高效的分布式并行化。其中we原创 2017-11-27 00:39:05 · 5440 阅读 · 0 评论