听过很多道理,依然过不好这一生——因为听到的不是真理;
听过很多真理,还是过不好这一生——因为没有行出来。
看过很多博客,依然搞不懂xgboost——因为看到的不是原汁原味的论文;
看过原汁原味的论文,还是搞不懂xgboost——因为没有写出来。
终于到了要写写xgboost的时候了。阅文无数之后,我决定还是回到最初的起点,认真咀嚼一下陈天奇博士的论文:
XGBoost: A Scalable Tree Boosting System
下面我就顺着论文的章节顺序,记录一下我的学习心得。
ABSTRACT
摘要一共就五句话:
第一句,抛砖。介绍提升树的高效和广泛应用。
第二句,引玉。引出state-of-the-art的主角——XGBoost。
第三句,创新之处(算法层面)。处理缺失值的方法,和加权分位略图(这名字难翻译)的近似算法。
第四句,重中之重(系统层面)。如何构建可扩展的提升树系统。
第五句,效果。处理大数据,使用小资源。
Keywords
Large-scale Machine Learning