决策树、CART、GBDT、Xgboost学习笔记

最新推荐文章于 2024-03-25 21:54:29 发布

haiyu94

最新推荐文章于 2024-03-25 21:54:29 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/haiyu94/article/details/78619730

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、决策树

决策树由结点和有向边组成，结点又分为内部结点和叶结点。从本质上来看，决策树的学习过程包括特征选择，决策树生成和决策树剪枝3个部分。

1.1决策树特征选择

所谓决策树特征选择即选择合适的特征作为结点对训练样本进行划分，通常使用信息增益或者信息增益比作为特征选择的标准。

信息增益

$g (D, A) = H (D) - H (D | A) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | + \sum i = 1 n | D i | | D | H (D i) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | + \sum i = 1 n | D i | | D | \sum k = 1 K D i k D i l o g 2 | D i k | | D i |$ $\begin{equation}\begin{split} g(D,A) &= H(D) - H(D|A)\\ &=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}+\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)\\ &=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}+\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{D_{ik}}{D_i}log_2\frac{|D_{ik}|}{|D_i|} \end{split}\end{equation}$
其中， D为训练集样本， $C_k$ 表示第k类样本的集合, $C_i$ 表示特征A的属性为第i个值的样本集合
信息增益比

$g R (D, A) = g ( D , A ) H A ( D ) = g ( D , A - \sum n i = 1 | D i | D l o g 2 | D i | | D |$ $\begin{equation}\begin{split} g_R(D,A)&=\frac{g(D,A)}{H_A(D)}\\ &=\frac{g(D,A}{-\sum_{i=1}^n\frac{|D_i|}{D}log_2\frac{|D_i|}{|D|}} \end{split}\end{equation}$

总结：
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，使用信息增益比可以对这一问题进行校正。其对应的应用为，信息增益对应ID3算法，信息增益比对应C4.5算法。

1.2决策树生成算法

输入：训练数据D，特征集A，阈值 $\epsilon$
输出：决策树T
（1）若D中所有实例属于同一类 $C_k$ , 则T为单结点树，并将类 $C_k$ 作为该结点的类标记，返回T
（2）若A= $\varnothing$ ，则T为单结点树，并将D中实例最大的类 $C_k$ 作为该结点的类标记，返回T
（3）否则，按1.1中的方法计算A中各特征对D的信息增益或者信息增益比，选择我信息增益或者信息增益比最大的特征 $A_g$
（4）如果 $A_g$ 的信息增益小于阈值 $\epsilon$ 则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类标记，返回T
（5）否则对 $A_g$ 的每一可能值 $a_i$ ,依 $A_g$ = $a_i$ 将D分割为若干非空子集 $D_i$ , 将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T
（6）对第i个子结点，以 $D_i$ 为训练集， $A-{A_g}$ 为特征集，递归调用（1）~（5），得到子树 $T_i$ ,返回 $T_i$

1.3决策树剪枝

方法：极小化决策树整体的损失函数
损失函数定义：

C α (T) = \sum t = 1 | T | N t H t (T) + α | T |

$\begin{equation}\begin{split} C_\alpha(T)&=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T| \end{split}\end{equation}$
在上式中，经验熵

H t (T) = - \sum k N t k N t l o g N t k N t

$H_t(T)=-\sum_k\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}$
其中，设树T的叶节点个数为|T|，t是树T的叶结点，该叶结点有

Nt $N_t$ 个样本点，其中k类样本点有

Ntk $N_{tk}$ 个，则

Ht(T) $H_t(T)$ 为叶结点t上的经验熵
在损失函数中，

Cα(T) $C_\alpha(T)$ 等式右端的第一项记作

C (T) = \sum t = 1 | T | N t H t (T) = - \sum t = 1 | T | \sum k = 1 K N t k l o g N t k N t

$C(T)=\sum_{t=1}^{|T|}N_tH_t(T)=-\sum_{t=1}^{|T|}\sum_{k=1}^{K}N_{tk}log\frac{N_{tk}}{N_t}$
称这一项为预测误差，用来描述模型与训练数据的拟合程度。用|T|来表示模型的复杂度，使用参数

α $\alpha$ 来控制两者之间的影响。

决策树剪枝算法：
输入：生成算法生成的整个树T, 参数 $\alpha$
输出：修剪后的子树 $T_{\alpha}$
（1）计算每个结点的经验熵
（2）递归的从树的叶结点向上回缩，如下图所示：
这里写图片描述
如果剪枝之后的损失函数比剪枝之前的损失函数小，则进行剪枝，其父结点变为新的叶结点
（3）返回（2），直至不能继续为止

二、CART

CART（classification and regression tree）分类回归树，其与一般决策树最大的变化是假设决策树是二叉树，内部结点特征的取值为‘是’和‘否’

2.1会归树的生成

一个回归树对应着输入空间（特征空间）的一个划分以及在划分单元的输出值。
假设已将一个输入空间划分为M个单元 $R_1、R_2、... 、R_m$ , 在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树的模型可以表示为

f (x) = c m (若 x \in R m)

$f(x)=c_m (若x \in R_m)$

2.1.1确立输出空间的值

当输入空间的划分确定时，使用平方误差来表示回归树对训练数据的预测误差

L = \sum x i \in R m (y i - f (x i)) 2 = \sum x i \in R m (y i - c m) 2

$\begin{equation}\begin{split} L&= \sum_{x_i \in R_m}(y_i - f(x_i))^2\\ &=\sum_{x_i \in R_m}(y_i - c_m)^2 \end{split}\end{equation}$
使用平方误差最小的准则求解每个单元上的最优输出值，对损失函数求偏导

\partial L \partial c m = - 2 \sum x i \in R m (y i - c m)

$\begin{equation}\begin{split} \frac{\partial L}{\partial c_m}=-2\sum_{x_i \in R_m}(y_i - c_m) \end{split}\end{equation}$
令上式为0, 可求得最优解

c^m = a v e r a g e (y i | x i \in R m)

$\hat{c}_m=average(y_i|x_i \in R_m)$

2.1.2如何对输入空间进行划分

使用启发式的方法，选择第j个特征 $x^{(j)}$ 及其取值 s 作为切分变量和且分点，由此可以可以得到两个区域 $R_1$ 和 $R_2$ :

R 1 (j, s) = x | x (j) \leq s

$R_1(j,s)= {x|x^{(j)} \le s}$ 和

R 1 (j, s) = x | x (j) > s

$R_1(j,s)= {x|x^{(j)} > s}$
想要寻找最优切分变量和最优且分点，即要使得对当前结点所有的特征和其取值，总的损失函数最小，可表示为

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - C 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - C 2) 2]

${\min_{j,s}}[{\min_{c_1}} \sum_{x_i \in R_1(j,s)}(y_i-C_1)^2 + {\min_{c_2}} \sum_{x_i \in R_2(j,s)}(y_i-C_2)^2 ]$
由此，可根据上面求得的最优

c^1 ${\hat c}_1$ 和

c^2 ${\hat c}_2$ 可以求得最优切分变量j和最优且分点s

2.2分类树的生成

2.2.1 分裂准则-基尼指数

定义：

G i n i (p) = \sum k = 1 K p k (1 - p k)

$Gini(p) = \sum_{k=1}^Kp_k(1-p_k)$

2.2.2 生成算法

对于给定的样本集D，其基尼指数为

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2

$Gini(D)=1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2$
这里，

Ck $C_k$ 是属于第k类的样本自己，K是类的个数
样本集合D根据特征A是否取某一可能值a被分割成

D1 $D_1$ 和

D2 $D_2$ 两部分，则在特征A的条件下，集合D的基尼指数定义为

G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$
在每一个结点，遍历多有的特征及其可能的取值，选取基尼指数最小的特征及其对应的且分点作为最优特征和最优切分点。递归调用直至满足停止条件。
算法停止的条件是结点中的样本个数小于预定阈值或样本集的基尼指数小于预定阈值或者没有更多特征。

2.2.3剪枝算法

输入：CART算法生成的决策树 $T_0$
输出：最优决策树 $T_\alpha$
(1)设k=0，T= $T_0$
(2)设 $\alpha=+\infty$
(3)自上而下地对各个内部结点t计算 $C(T_t)$ , $|T_t|$ 以及

g (t) = C ( t ) - C ( T t ) | T t | - 1

$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$

α = m i n (α, g (t))

$\alpha=min(\alpha,g(t))$
(4)对

g(t)=α $g(t)=\alpha$ 的内部结点t进行剪枝，并对叶结点t以多数表决法决定其类，得到树T
(5)设k=k+1，

αk=α,Tk=T $\alpha_k=\alpha,T_k=T$
(6)如果

Tk $T_k$ 不是由根节点及两个叶结点构成的树，则回到步骤(3)；否则令

Tk=Tn $T_k=T_n$
(7)采用交叉验证法在子树序列

T0,T1,...,Tn $T_0,T_1,...,T_n$ 中选取最优子树

三、GBDT（Gradient boosting decision tree）

3.1 GBDT 回归树算法

提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; θ m)

$f_M(x)=\sum_{m=1}^MT(x;\theta_m)$
在上式中，

T(x;θm) $T(x;\theta_m)$ 表示第m棵决策树，

θm $\theta_m$ 为第m棵决策树的参数，M为决策树的个数
提升树算法使用前向分步算法：
(1) 确定初始提升树

f 0 (x) = 0

$f_0(x)=0$
(2)第m步的模型：

f m (x) = f m - 1 (x) + T (x; θ m)

$f_m(x)=f_{m-1}(x) + T(x;\theta_m)$
在上式中，

fm−1(x) $f_{m-1}(x)$ 是当前模型，通过经验风险最小化确定下一棵决策树的参数

θm $\theta_m$

θ^m = a r g min θ m \sum i = 1 N L (y i, f m - 1 (x) + T (x; θ m))

$\hat{\theta}_m=arg\ \min_{\theta_m}\sum_{i=1}^NL(y_i, f_{m-1}(x) + T(x;\theta_m))$
在二中，CART回归树的输出结果是

f (x) = c m (若 x \in R m)

$f(x)=c_m (若x \in R_m)$
当采用平方误差作为损失函数时，

L (y, f (x)) = (y - f (x)) 2

$L(y,f(x))= (y-f(x))^2$
则其算是函数为

L (y, f m - 1 + T (x; θ m) ） = [y - f m - 1 (x) - T (x; θ m)] 2 = [r - T (x; θ m)] 2

$\begin{equation}\begin{split} L(y,f_{m-1}+T(x;\theta_m)）&=[y-f_{m-1}(x)-T(x;\theta_m)]^2\\ &=[r-T(x;\theta_m)]^2 \end{split}\end{equation}$
说明：令

r=y−fm−1(x) $r=y-f_{m-1}(x)$ 是当前模型的残差，所以提升树算法相当于对当前模型残差的拟合。
(3)梯度提升算法：

利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树

r m i = - [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$r_{mi}=-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
其算法基本步骤：
(1)初始化

f 0 (x) = a r g min c \sum i = 1 N L (y i, c)

$f_0(x)=arg\ \min_c \sum_{i=1}^NL(y_i,c)$
(2)对m=1,2,3,…,M
(a)对=1,2，…, N，计算残差

r m i = - [\partial L ( y i , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$r_mi=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
(b)对

rmi $r_mi$ 拟合一个回归树，得到第m棵树的叶结点区域

Rmj $R_{mj}$
(c)对j=1,2,3,…J,计算

c m j = a r g min c \sum x i \in R m j L (y i, f m - 1 (x i) + c)

$c_{mj}=arg \min_c \sum_{x_i \in R_{mj}}L(y_i, f_{m-1}(x_i) +c)$
(d)更新

fm(x)=fm−1(x)+∑Jj=1cmj(x∈Rmj) $f_m(x)=f_{m-1}(x) + \sum_{j=1}^J c_{mj} (x \in R_{mj})$
(3)得到回归树

f^(x) = f M (x) = \sum m = 1 M \sum j = 1 J c m j (x \in R m j)

$\hat{f}(x)=f_M(x)= \sum_{m=1}^M\sum_{j=1}^Jc_{mj}(x \in R_{mj})$

3.2GBDT分类树算法

未完待续….

参考文献:李航《统计学习方法》

haiyu94

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树、CART、GBDT、Xgboost学习笔记

一、决策树决策树由结点和有向边组成，结点又分为内部结点和叶结点。从本质上来看，决策树的学习过程包括特征选择，决策树生成和决策树剪枝3个部分。1.1决策树特征选择所谓决策树特征选择即选择合适的特征作为结点对训练样本进行划分，通常使用信息增益或者信息增益比作为特征选择的标准。信息增益 g(D,A)=H(D)−H(D|A)=−∑k=1K|Ck||D|log2|Ck||D|+∑i=1n|Di||D|H(
复制链接

扫一扫