集成学习之GBDT预备知识

最新推荐文章于 2024-08-19 22:29:12 发布

joejoeqian

最新推荐文章于 2024-08-19 22:29:12 发布

阅读量599

点赞数 6

分类专栏： # 集成学习文章标签：集成学习机器学习决策树

本文链接：https://blog.csdn.net/joejoeqian/article/details/129974453

版权

集成学习专栏收录该内容

3 篇文章 4 订阅

订阅专栏

文章详细介绍了CART算法的基础知识，包括决策树的概念、CART算法与C4.5的区别、基尼指数的计算及其应用。通过示例展示了如何使用基尼指数选择最优特征来构建分类树，并解释了回归树的生成原理和最小化平方误差的方法。最后提到了CART的剪枝过程。

摘要由CSDN通过智能技术生成

0.参考文献和思维导图

参考连接：GBDTt 作者：老弓的学习日记
思维导图：https://github.com/QianJoe/Ensemble-Learning

1.预备知识

1.1 决策树CART算法

CART算法包括：选择特征、生成决策树、剪枝。

1.1.1 与C4.5等的算法区别

区别1：C4.5等算法一般都是多叉树，而CART是二叉树。

如图C4.5生成的决策树：
在这里插入图片描述
多叉树怎么转换为二叉树：

例如：对于纹理这个特征而言，可以分为清晰、稍模糊、模糊三叉树，但是如果把这个三叉树改成二叉树，就可以写成清晰和不清晰，接着在「不清晰」中，再分为模糊和稍模糊。

区别2：选择特征的依据不同
要想生成一棵决策树，首先应该选择最优特征。在CART算法中，是通过基尼指数来选择最优特征的，ID3和C4.5是使用信息增益和信息增益比。

1.1.2 基尼指数

假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，概率分布的基尼指数定义为： $Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$

显然，这就是样本点被错分的概率期望。如果整个样本集只有一个类别，那么基尼指数就是0，表示样本集纯度达到最高值。反正总共就一个类，那么任意抽取一个样本，自然就知道它的归属类别。

对于二类分类问题
如果样本点属于第一类的概率是 $p$ ，不属于的概率就是 $1 - p$ ，代入到这个公式里就是： $\begin{aligned}Gini(p)&=p(1-p)+(1-p)(1-(1-p))\\&=2p(1-p)\end{aligned}$
然而实际生活中概率 $p$ 无法知道，只能用估计值，所以有以下：

如果对给定的样本集合 $D$ ，可以分为两个子集 $C_1$ 和 $C_2$ ： $Gini(p)=1-\sum_{k=1}^2\left(\frac{|C_k|}{|D|}\right)^2$ ，其中 $\frac{|C_k|}{|D|}$ 就是 $p$ 的经验值。

之所以单独把二分类的情况列出来，是因为在提出基尼指数的CART算法中用的就是这个，毕竟CART算法生成的是二叉决策树。但其实基尼指数完全可以用到多分类问题中。

如：对于特征A条件下，样本集D的基尼指数为

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

这里就是选定了特征A，并且将数据集中按照特征分成了两个数据集，再分别求它们对应的基尼指数。

1.1.3 基尼指数例题

拿水蜜桃来举个例子。一共 $10$ 个桃子，其中 $5$ 个好吃， $5$ 个不好吃。
那么可以计算出整个数据集的基尼指数： $Gini(D)=2p(1-p)=2*\frac{1}{2}*\frac{1}{2}=0.5$ ，分类：好吃和不好吃，两种。

第一个特征，选择甜度特征
按照甜度阈值 $\epsilon=0.2$ 分成两组。
假设，甜度大于 $0.2$ 的有 $6$ 个桃子，其中 $5$ 个好吃， $1$ 个不好吃，甜度小于等于 $0.2$ 的有 $4$ 个桃子，都不好吃，那么我们就可以列出这样一个二叉树。数据集就被分成了 $D_1$ 和 $D_2$ 两个。这里我们把甜度特征标记为 $A$ 。
如图：
在这里插入图片描述
接着来计算甜度特征下的基尼指数：

计算 $D_1$ 数据集的基尼指数： $Gini(D_1)=2*\frac{5}{6}*\frac{1}{6}=\frac{10}{36}$
接着计算 $D_1$ 占比的权重为： $w_1=\frac{6}{10}$
计算 $D_2$ 数据集的基尼指数： $Gini(D_2)=2*\frac{0}{4}*\frac{4}{4}=0$
接着计算 $D_2$ 占比的权重为： $w_2=\frac{4}{10}$
计算甜度特征下的基尼指数 $Gini(D,A)=\frac{6}{10}*\frac{10}{36}+\frac{4}{10}*0=0.17$

第二个特征，选择硬度特征
按照软硬分成两组。
假设，有5个硬桃子，其中2个好吃，3个不好吃，5个软桃子中，有3个好吃，2个不好吃。那么继续列出一个二叉树，这里我们把硬度特征标记为 $B$ 。
在这里插入图片描述

计算 $D_1$ 数据集的基尼指数：
$Gini(D_1)=2*\frac{2}{5}*\frac{3}{5}=\frac{12}{25}$
接着计算 $D_1$ 占比的权重为： $w_1=\frac{5}{10}$
计算 $D_2$ 数据集的基尼指数： $Gini(D_2)=2*\frac{3}{5}*\frac{2}{5}=\frac{12}{25}$
接着计算 $D_2$ 占比的权重为： $w_2=\frac{5}{10}$
计算甜度特征下的基尼指数： $Gini(D,B)=\frac{1}{2}*\frac{12}{25}+\frac{1}{2}*\frac{12}{25}=0.48$

选择特征
通过比较可以看出： $G ini (D, A) < G ini (D, B)$
按照甜度分类时，分类的确定性更胜一筹，那么就可以用这个特征作为最优特征。
这就是用基尼指数来找到最优特征的方法，通过对数据集中不同特征进行基尼指数的遍历计算，就能得出最小时对应的特征，这就完成了CART算法中的第一步。

1.1.4 分类树

输入：数据集 $D$ ，特征集 $A$ ，停止条件阈值 $\epsilon$
输出：CART分类决策树

1.算法基本流程

第一步，从根节点出发，构建二叉树
第二步，计算现有特征下对数据集 $D$ 基尼指数，选择最优特征假设特征集 $A$ 中 $A_1,A_2,\cdots,A_n$ 个特征，那么我们先选出 $A_1$ 特征，假设这个特征里，有 $a_{11},a_{12},\cdots,a_{1m_1}$ 个值，那么对数据集 $D$ 按照每一个 $a_{1i}$ 特征值来分成 $D_1$ 和 $D_2$ 两个数据集，并且计算一下对应的基尼指数，选择基尼指数最小的那个特征值 $a_{1i}$ 作为最优切分点。
以此类推，得出每个特征下的最优切分点，也就是最优的特征值。接着比较在最优切分下每个特征的基尼指数，选择基尼指数最小的那个特征，就是最优特征。
第三步，根据最优特征和最优切分点，生成两个子节点，并将数据集分配到对应的子节点中。
按照最优切分点来分成二叉树。
第四步，分别对两个子节点继续递归调用上面的步骤，直到满足条件，即生成CART分类决策树。
这里的条件，一般就是阈值，当基尼指数小于这个阈值时，意味着样本基本上属于一类，或者就是没有更多的特征了，那么就完成了CART分类决策树的生成。

分类树的例题
训练集 $D$ ，特征集分别是 $A_1$ 年龄， $A_2$ 是否有工作， $A_3$ 是否有自己的房子， $A_4$ 信贷情况。
类别为 $y_1=是$ ， $y_2=否$

贷款申请样本数据表：

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

回顾一下公式：
对于特征A条件下，样本集D的基尼指数为： $Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

第一个选择年龄 $A_1$ 这个特征
年龄特征中有：青年 $A_{11}$ ，中年 $A_{12}$ 和老年 $A_13$ 三个特征值。

D\|A1	年龄	个数	是否同意贷款
D\|A1	年龄	个数	否	是
D1	青年	5	3	2
D2	中年	5	2	3
D3	老年	5	1	4

1.以青年和非青年分类：

因为CART算法是二叉树，将数据集分为青年和非青年（也就是中年和老年）。
那么，青年 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{2}{5}*\frac{3}{5}=\frac{12}{25}\\w_1=\frac{5}{15}$
非青年 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{7}{10}*\frac{3}{10}=\frac{42}{100}\\w_2=\frac{10}{15}$
$Gini(D,A_{11})=\frac{5}{15} *\frac{12}{25}+\frac{10}{15}*\frac{42}{100}=0.44$

同理，还可以以中年、老年来作为分类点。
2.以中年和非中年分类：

$Gini(D,A_{12})=\frac{5}{15} *2*\frac{3}{5}*\frac{2}{5}+\frac{10}{15}*2*\frac{6}{10}*\frac{4}{10}=0.48$

3.以老年和非老年分类：

$Gini(D,A_{13})=\frac{5}{15} *2*\frac{4}{5}*\frac{1}{5}+\frac{10}{15}*2*\frac{5}{10}*\frac{5}{10}=0.44$

可以看出，青年和老年的基尼指数最小，都可以作为最优划分点。
第二个选择工作 $A_2$ 这个特征
工作特征中有：有工作 $A_{21}$ 、无工作 $A_{22}$ 2个特征值。

D\|A2	有工作	个数	是否同意贷款
D\|A2	有工作	个数	否	是
D1	是	5	0	5
D2	否	10	6	4

那么，有工作 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{5}*\frac{5}{5}=0 \\ w_1=\frac{5}{15}$
有工作 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{4}{10}*\frac{6}{10}=\frac{48}{100}\\w_2=\frac{10}{15}$
$Gini(D,A_{2})=\frac{5}{15} *0+\frac{10}{15}*\frac{48}{100}=0.32$

第三个选择房子 $A_3$ 这个特征*
房子特征中有：有房子 $A_{31}$ 、无房子 $A_{32}$ 2个特征值。

D\|A3	有自己的房子	个数	是否同意贷款
D\|A3	有自己的房子	个数	否	是
D1	是	6	0	6
D2	否	9	3	6

那么，有房子 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{6}*\frac{6}{6}=0 \\ w_1=\frac{6}{15}$
有房子 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{6}{9}*\frac{3}{9}=\frac{36}{81}\\w_2=\frac{9}{15}$
$Gini(D,A_{2})=\frac{6}{15} *0+\frac{9}{15}*\frac{36}{81}=0.27$
第四个选择信贷 $A_4$ 这个特征
信贷特征中有：信贷非常好 $A_{41}$ 、信贷好 $A_{42}$ 、信贷一般 $A_{43}$ 3个特征值。

D\|A4	信贷情况	个数	是否同意贷款
D\|A4	信贷情况	个数	否	是
D1	非常好	4	0	4
D2	好	6	2	4
D3	一般	5	4	4

1.以非常好和并不非常好分类：

那么，非常好 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{4}*\frac{4}{4}=0 \\ w_1=\frac{4}{15}$
不非常好 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{5}{11}*\frac{6}{11}=\frac{48}{100}\\w_2=\frac{11}{15}$
$Gini(D,A_{41})=\frac{4}{15} *0+\frac{11}{15}*\frac{60}{121}=0.36$

2.以好和非好分类

$Gini(D,A_{42})=\frac{6}{15} *2*\frac{4}{6}*\frac{2}{6}+\frac{9}{15}*2*\frac{5}{9}*\frac{4}{9}=0.47$

3.以一般和非一般分类

$Gini(D,A_{43})=\frac{5}{15} *2*\frac{1}{5}*\frac{4}{5}+\frac{10}{15}*2*\frac{8}{10}*\frac{2}{10}=0.32$

可以看出，特征值一般的基尼指数最小，作为最优划分点。

把4个特征得出的基尼指数进行比较：

特征值	基尼指数
年龄	0.44
工作	0.32
房子	0.27
信贷情况	0.32

可以看出，特征房子对应的基尼指数最小，那么就可以作为最优特征绘制二叉树。
在这里插入图片描述
可以看出，有房子的都是同意贷款，那么没房子这里该怎么继续划分，继续对无房子的数据集进行统计：

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

按照年龄、工作、信贷情况来分类，可以得出：

1.在无房子数据集内，以年龄特征分类

年龄	个数	不同意贷款	同意贷款
青年	4	3	1
中年	2	2	0
老年	3	1	2

2.在无房子数据集内，以工作特征分类

工作	个数	不同意贷款	同意贷款
有工作	3	0	3
无工作	6	6	0

3.在无房子数据集内，以信贷情况特征分类

信贷情况	个数	不同意贷款	同意贷款
非常好	1	0	1
好	4	2	2
一般	4	4	0

不用分别计算就可以看出工作这个特征对应的分类非常明显，因此对应的基尼指数肯定最小，那么就可以继续选这个特征进行二叉树的分类。
于是：

1.1.5 回归树

输出是连续的
1.划分连续数据
既然是决策树，那么输出的一定就是叶子结点，对于 连续变量而言，可以按照一定的要求将连续变量进行划分。
以之前桃子例子来说：
输入：用 $[0, 0.5]$ 来表示由不甜到甜的程度
输出：用 $[1, 10]$ 来表示由不好吃到好吃的程度

甜度	0.05	0.15	0.25	0.35	0.45
好吃程度	5.5	7.6	9.5	9.7	8.2

在对数据划分时，就可以从甜度这个输入量来进行划分，但是要注意由于CART算法是二叉树，所以每次划分只能划分成两类，比如：甜度 $\leq 0.1$ 和甜度 $> 0.1$ 这样两类，然后可以再继续在甜度 $> 0.1$ 这个范围内在选择最优切分点继续划分。
在这里插入图片描述
右上角的角标数意味着分类的次数，右下角标数代表着所属的类，这就意味着，输出单元最终不只是 2个单元，也可以是多个单元。
2.如何生成回归树模型
假设将输入空间划分成 $M$ 个单元 $R_1,R_2,\cdots,R_m$ ，并在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，回归树模型可以表示为： $f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
这里的 $f (x)$ 就是CART回归模型， $c_m$ 代表输出的类， $I(x\in R_m)$ 是指示性函数。
假设输入和输出变量如下：

输入	$R_1$	$R_2$	…	$R_m$
输出	$c_1$	$c_2$	…	$c_m$

$I(x\in R_m)$ 是指当 $x\in R_m$ 取 $1$ ， $x\notin R_m$ 取 $0$ 。
这样就意味着，对于某个输出单元也就是类 $c_m$ 而言，当输入单元 $R_m$ 和它一致时就存在，如果不一致时，就没有。这样把所有输入单元对应的类求和之后，便是最终的回归树模型。

3.平方误差和最优输出
怎么找切分点？这时就需要通过平方误差最小化来找到最优切分点了。
选择第 $x^{(j)}$ 个变量和取 $s$ ，分别作为切分变量和切分点，并定义两个区域： $R_1(j,s)=x|x^{(j)}\leq s \\ R_2(j,s)=x|x^{(j)} > s$
用平方误差最小化来寻找最优切分变量 $j$ 和最优切分点 $s$ ： $\min_{j,s}\left[min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
这个公式意味着，将输出变量按照输入变量分为了两类，然后要求出来每次分类后的各个分类的平方误差最小值之和，也就意味着整体的最小平方误差，平方误差最小，意味着分类和实际最吻合。其中： $\hat c_1=ave (y_i|x_i\in R_1(j,s))\\ \hat c_2=ave (y_i|x_i\in R_2(j,s))$
这里可以理解成，如果我们想要平方误差最小，那么就是将每次分类后的和设置为对应的每个区域内的输出变量的平均值。

为什么使用该节点所有样本平均值时得到的损失最小？
推导过程：

损失函数：
$\begin{aligned}J&=\frac{1}{n}\sum_{i=1}^n(f(x_i)-y_i)^2\\&=\frac{1}{n}\sum_{i=1}^n(\sum_{m=1}^Mc_mI(x_i\in R_m)-y_i)^2,按照样本的方式去遍历\\&=\frac{1}{n}\sum_{m=1}^M\sum_{x_i\in R_m}(c_m-y_i)^2,按照节点去遍历\end{aligned}$
其中， $\frac{1}{n}\sum_{m=1}^M$ 是叶子节点数， $\sum_{x_i\in R_m}$ 是叶子结点 $R_m$ 中所包含的样本。
优化目标： $c_m^*=\min_{c_m}\frac{1}{n}\sum_{m=1}^M\sum_{x_i\in R_m}(c_m-y_i)^2$
，此时损失函数只包含一个参数 $c_m$ ，可直接对 $J$ 求导并令导数等于0，求解 $c_m^*$ ：
$\begin{aligned}\frac{\partial J}{\partial c_m}&=\frac{\frac{1}{n}\sum_{m=1}^M\sum_{x_i\in R_m}(c_m-y_i)^2}{\partial c_m}\\&=\frac{\frac{1}{n}\sum_{x_i\in R_m}(c_m-y_i)^2}{\partial c_m}\\&=2\sum_{x_i\in R_m}(c_m-y_i)\\&=N_mc_m-\sum_{x_i\in R_m}y_i,其中N_m是叶子节点R_m包含样本的个数\end{aligned}$
令该导数等于0，有： $N_mc_m-\sum_{x_i\in R_m}y_i=0$ ，解得： $c_m=\frac{\sum_{x_i\in R_m}y_i}{N_m}$

即：当每个叶子节点的 $c_m$ 的取值，为该节点所有样本 $y_i$ 的平均值时，得到损失最小，即最优的回归树。

4.停止条件
可以是将输出变量分为两个类，也可以是直到没有多余的样本点。
输出的就是一棵CART二叉树。

5.例题：桃子例题

甜度	0.05	0.15	0.25	0.35	0.45
好吃程度	5.5	7.6	9.5	9.7	8.2

1.以甜度特征进行回归计算
第一以甜度 $s = 0.1$ 进行划分
可以将表格里的连续数据划分成 $R_1$ 和 $R_2$ 两类：
$R_1$ 类是：

甜度	0.05
好吃程度	5.5

$R_2$ 类是：

甜度	0.15	0.25	0.35	0.45
好吃程度	7.6	9.5	9.7	8.2

可以得出： $\hat c_1=5.5 \\ \hat c_2=\frac{7.6+9.5+9.7+8.2}{4}=8.75$
接着代入平方误差公式中：

$\begin{aligned}&=\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \\&=0+(7.6-8.75)^2+(9.5-8.75)^2+(9.7-8.75)^2+(8.2-8.75)^2\\&=3.09\end{aligned}$

第二步以甜度 $s = 0.2$ 进行划分
计算出平方误差和结果为 $3.53$ 。

第三步以甜度 $s = 0.3$ 进行划分
计算出平方误差和结果为 $9.13$ 。

第四步以甜度 $s = 0.4$ 进行划分
计算出平方误差和结果为 $11.52$ 。

这样，从四个分类中，我们选取最小值，也就是当甜度 $s_1=0.1$ 时，作为最优切分点，同时输出的CART回归树模型就是： $f(x)=\begin{cases}5.5 &(s\leq 0.1)\\8.75 &(s > 0.1)\end{cases}$
当然我们还可以对 $s > 0.1$ 区域进行回归划分，这就要取决于你的停止条件，如果说是继续分成三类，那么就可以按照相同的思路进行计算。
通过对连续变量进行划分，就可以转换为离散的变量来进行计算，那么就和之前的分类树模型也是相通的方法，这也就是为什么常见的都是CART分类树模型。