一、概述
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。GBDT主要由三个概念组成:Regression Decision Tree(即DT)、Gradient Boosting(即GB)、Shrinkage(算法的一个重要演进分支,目前大部分源码都按该版本实现)。理解这三个概念后就能明白GBDT是如何工作。
二、DT(Regression Decision Tree回归树)
提到决策树(DT, Decision Tree),绝大部分人首先想到的就是C4.5分类决策树。但如果一开始就把GBDT中的树想成分类树,那就是一条歪路走到黑,千万不要以为GBDT是很多棵分类树。决策树分为两大类,回归树和分类树。前者用于预测实数值,如明天的温度、用户的年龄、网页的相关程度;后者用于分类标签值,如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调的是,前者的结果加减是有意义的,如10岁+5岁-3岁=12岁;后者则无意义,如男+男+女=男还是女?GBDT的核心在于累加 所有树的结果作为最终结果,而分类树的结果显然是无法累加的。所以 GBDT中的树都是回归树,不是分类树,这点对理解GBDT相当重要,尽管GBDT调整后也可用于分类,但不代表GBDT的树是分类树。下面以对人的性别判别/年龄预测为例来说明,每个实例都是一个已知性别/年龄的人,而特征则包括这个人上网的时长、上网的时段、网购所花的金额等。
作为对比,先说分类树。我们知道C4.5分类树在每次分支时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值和feature>阈值分成的两个分支的熵最大的feature和阈值,按照该标准分支得到两个新节点,用同样方法继续分支直到所有人都被分入性别唯一的叶子节点,或达到预设的终止条件,若最终叶子节点中的性别不唯一,则以多数人的性别作为该叶子节点的性别。
回归树总体流程也是类似,不过在每个节点(不一定是叶子节点)都会得到一个预测值。以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。分支时穷举每一个feature的每个阈值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化均方差,即每个人的年龄与预测年龄的误差平方和除以N。这很好理解,被预测出错的人数越多,均方差越大,通过最小化均方差能够找到最靠谱的分支依据。分支直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)。若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平均年龄作为该叶子节点的预测年龄。