自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 XGBoost解析系列-数据加载

前言XGBoost数据加载1 DMatrixLoad主流程2 解析器parser构建过程3 DMatrix对象构建过程0.前言  本文主要介绍XGBoost中数据加载过程,主要是DMatrix::Load内容。1. XGBoost数据加载1.1 DMatrix::Load主流程  数据集加载语句为:std::shared_ptr<DMatrix> dtrain(DMatrix::Load(p

2017-12-04 01:52:38 5454

原创 XGBoost解析系列--源码主流程

前言入口过程Train过程1 Train主框架2 UpdateOneIter流程21 LazyInitDMatrix过程22 PredictRaw过程23 obj_-GetGradient过程24 gbm_-DoBoost过程241 分裂过程242 剪枝过程0.前言  本文介绍XGBoost的源代码流程,先梳理源码主干流程,方便读者理解,结合函数名进行说明具体逻辑与功能。如果读者

2017-12-03 01:45:49 18404 1

原创 Fast Algorithm for GK Summary算法

前言算法思路1 数据量固定的算法2 数据量固定的算法复杂度3 流式数据算法4 流式算法复杂度分析参考文献0.前言  本文主要介绍Zhang and Wang利用GK Summary的Merge与Prune操作来构建新的ϵ−approximate quantile summary\epsilon-approximate \ quantile \ summary,提出了A Fast quan

2017-11-30 00:25:44 1554 1

原创 分布式GK Summary算法

前言背景分布式GK Summary算法1 Merge操作2 Prune操作参考文献0.前言  本文主要介绍分布式GK Summay算法,考虑分布式流式数据库场景,博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容,本文仅提取出关键内容加入笔者的个人理解,有错误还望谅解与告知。1.背景  现在考虑分布式流式数据库,流式数据来源如下图:   上图中每个Process

2017-11-29 00:31:05 2357

原创 GK Summay算法(ϵ−approximate ϕ−quantile)

前言背景GK Summary算法1 GK Summary定义2 GK Summary插入insert3 GK Summary删除delete与compress4 GK Summary算法参考文献0.前言  XGBoost不仅能在单机上通过OMP实现高度并行化,还能通过MPI接口与近似分位点算法(论文中是weighted quantiles sketch)实现高效的分布式并行化。其中we

2017-11-27 00:39:05 5178

原创 XGBoost解析系列-原理

前言Boosting算法框架XGBoost优化XGBoost算法XGBoost工程优化XGBoost算法复杂度参考资料0.前言  解析源码之前,还是介绍说明下XGBoost原理,网上对于XGBoost原理已有各种版本的解读。而这篇博客,笔者主要想根据自己的理解,梳理看过的XGBoost资料,包括陈天奇的论文以及引用论文内容,本文主要内容基于陈天奇的论文与PPT,希望能够做到系统地介绍XG

2017-11-26 00:01:10 11394 3

原创 GDB配置(打印STL容器、VS code配置、远程调试debug)

前言gdb定义打印函数配置pretty printergdb gdbserver远程调试gdb其他配置0.前言  Linux开发必须要把gdb玩的666呀,建议先阅读下《C++ vector STL实现详解》。gdb玩的666可以摆脱调试中各种使用std::cout打印输出变量的恶习,尤其对于大型项目,每次调试都需要增加std::cout,单单编译时长都能让你发狂,严重影响开发效率。1.g

2017-11-19 22:55:48 9202 3

原创 C++ vector STL实现详解

前言stl库位置vector代码分析vector变量gdb输出总结0.前言  早前使用gdb调试特别不习惯,1)没有具备图形界面IDE(比如Visual Studio)的强大功能:边打断点边代码跟进,退出断点保存,可以随时查看当前变量数据,对stl变量显示友好。2)gdb打印输出的内容有时难以理解,比如gdb只会打印出stl相关容器、复杂的类对象,智能指针的成员数据,而不会做格式化内容输出。比

2017-11-19 21:25:38 2979 1

原创 XGBoost解析系列-准备

前言代码准备编译准备debug编译配置VS Code可视化调试0.前言  研究生期间有幸和各路大腿参加过些机器学习与数据挖掘的比赛,发现xgboost单模型分类与回归效果往往比其他模型LR、RF、SVM、GDBT模型要好上不少,现在Microsoft还出LightGBM,首秀就在滴滴大赛中摘得10w美刀桂冠。当然也不好一概而论,比赛场景有限,数据特征处理偏稠密方式,比如图像领域CNN效果模型

2017-11-18 21:19:50 4556 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除