GBDT算法

最新推荐文章于 2020-11-30 14:24:08 发布

sighofvenus

最新推荐文章于 2020-11-30 14:24:08 发布

阅读量136

点赞数

分类专栏：机器学习文章标签：机器学习 ctr预估 GBDT

本文链接：https://blog.csdn.net/sighofvenus/article/details/89374583

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

GBDT算法

开篇寄语

开篇寄语

继上一篇讨论FM算法后，本来想接着进行FFM的探讨，不过考虑到目前用到的东西跟GBDT有些关系，先复习下这个算法吧，FFM可以往后放一放

1、概述

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，跟RF（Random Forest）类似，所不同的是，RF是多棵树投票或者加权平均机制，GBDT是多个树加和机制，其泛化能力较强，不同于LR/FM/FFM/DNN模型（线性），GBDT为非线性模型（个人理解），所以业界有DNN之后加一层GBDT会有收益
GBDT主要由三个概念组成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage，下面依次展开

2、回归树（Regression Decistion Tree）

回归树是决策树的一种，决策树分为：分类决策树和回归决策树，经典的决策树算法包括ID3/C4.5，都是分类决策树

1，分类树

分类树，每次分枝时穷举每个feature的每个阈值，找到使熵最大的feature的阈值进行分枝，叶子节点如果不唯一，就按多的来决定分类，衡量的标准是最大熵

1）核心概念

熵（熵越大，表示随机变量的不确定性越大）：
$\sum_i^n p_i log p_i$

条件熵（在已知随机变量 $X$ 条件下随机变量 $Y$ 的不确定性，假设现在有 $P(X=x_i)=p_i$ ,则给定 $X$ 条件下 $Y$ 的条件熵）：
$\sum_i p_i H(Y|X=x_i)$

信息增益（特征 $A$ 对于给定训练集合 $D$ 的信息增益 $I G (D, A)$ 为集合 $D$ 的熵与给定特征 $A$ 的条件下系统 $D$ 的条件熵 $H (D ∣ A)$ 之差）：
$I G (D, A) = H (D) - H (D ∣ A)$

信息增益比（特征集 $A$ 对训练数据集合 $D$ 的信息增益比 $I G R (D, A)$ 定义为特征 $A$ 的信息增益 $I G (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的取值熵 $H A (D)$ 之比）：
$IG_R (D,A) = \frac {IG(D,A)}{H_A(D)}$

ID3 算法采用信息增益作为特征选择的标准，而C4.5采用信息增益比（惩罚特征值多的特征）

2）损失函数

设决策树 $T$ 的叶节点的个数为 $∣ T ∣$ , $t$ 为 $T$ 的叶节点，该节点有 $N_t$ 个样本，其中类别 $k$ 的样本有 $N_{ik}$ 个， $H_t(T)$ 代表叶子节点 $t$ 的熵，另 $a \geq 0$ ,则决策树的损失函数可以定义为：
$C_a(T) = \sum_t N_t H_t(T) +a|T|$