决策树——(三)决策树的生成与剪枝CART

本文介绍了CART算法,一种用于分类和回归的决策树学习方法。CART算法基于基尼指数划分数据集,生成二叉树。它包括决策树生成和剪枝两个步骤。在生成阶段,通过计算基尼指数选择最佳划分特征。在剪枝阶段,使用损失函数最小化选择最优子树。文章还详细阐述了分类树的基尼指数计算和生成算法,并讨论了剪枝过程。
摘要由CSDN通过智能技术生成

前面两篇文章分别介绍了用ID3和C4.5这两种算法来生成决策树。其中ID3算法每次用信息增益最大的特征来划分数据集,C4.5算法每次用信息增益比最大的特征来划分数据集。下面介绍另外一种采用基尼指数为标准的划分方法,CART算法。

1. CART算法

分类与回归算法(Classification and Regression Tree,CART),即可以用于分类也可以用于回归,是应用广泛的决策树学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价与递归地二分每个特征,将输入空间即特征空间划分为有限个单元。

CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量最大;
(2)决策树剪枝:用验证集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝标准。

2. 分类树

在介绍分类树的生成算法前,我们先介绍一下划分标准基尼指数。

2.1 基尼指数

分类问题中,假设由 K K K个类,样本点属于第 k k k类的概率为 p k \large p_{\small k} pk,则概率分布的基尼指数定义为:
G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 (2.1) Gini(p)=\sum_{k=1}^K\large p_{\small k}(1-\large p_{\small k})=1-\sum_{k=1}^K\large p_{\small k}^2\tag{2.1} Gini(p)=k=1Kpk(1pk)=1k=1Kpk2(2.1)

因此,对于给定的样本集合 D D D,其基尼指数为:
G i n i ( D ) = 1 − ∑ k = 1 K ( ∣ C k ∣ ∣ D ∣ ) 2 (2.2) Gini(D)=1-\sum_{k=1}^K\left(\frac{|C_k|}{|D|}\right)^2\tag{2.2} Gini(D)=1k=1K(DCk)2(2.2)

其中, C k C_k Ck D D D中属于地 k k k类的样本子集, K K K是类的个数。

如果样本集合 D D D根据特征 A A A是否取某一可能值 a a a被分割成 D 1 , D 2 D_1,D_2 D1,D2两个部分,即
D 1 = { ( x , y ) ∈ D ∣ A ( x ) = a } , D 2 = D − D 1 D_1=\{(x,y)\in D|A(x)=a\},D_2=D-D_1 D1={ (x,y)DA(x)=a},D2=DD1

则在特征 A A A的条件下,集合 D D D的基尼指数定义为
G i n i ( D , A ) = ∣ D 1 ∣ ∣ D ∣ G i n i ( D 1 ) + ∣ D 2 ∣ ∣ D ∣ G i n i ( D 2 ) (2.3) Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)\tag{2.3} Gini(D,A)=DD1Gini(D1)+DD2Gini(D2)(2.3)

基尼指数 G i n i ( D ) Gini(D) Gini(D)表示集合 D D D的不确定性,即表示经 A = a A=a A=a分割后集合 D D D的不确定性。基尼指数越大,样本集合的不确定性也就越大,这点与熵相似。

下图是基尼指数,熵之半 1 2 H ( p ) \frac{1}{2}H(p) 21H(p)和分类误差率之间的关系。横坐标表示概率,纵坐标表示损失。可以看出基尼指数和熵之半的曲线很接近,都可以近似的表示分类误差率。

这里写图片描述

2.2 生成算法

输入:训练数据集 D D D,停止计算条件;
输出:CART决策树

根据训练集,从根节点开始,递归地对每个结点进行一下操作,构建二叉决策树:
(1)设结点的训练集为 D D D,利用公式 ( 2.2 ) (2.2) (2.2)计算现有特征对该数据集的基尼指数。此时,对每一个特征 A A A,对其可能的每一个值 a a a,根据样本点对 A = a A=a A=a的测试值为“是”或“否”将 D D D分割成 D 1 , D 2 D_1,D_2 D1,D2两个部分,利用公式 ( 2.3 ) (2.3) (2.3)计算 A = a A=a A=a时的基尼指数;
(2)在所有可能的特征 A A A以及它们所有可能的切分点 a a a中,选择基尼指数最小的特征最为划分标准将原有数据集划分为两个部分并分配到两个子结点中去。
(3)对两个子结点递归的调用(1),(2),直到满足停止条件;
(4)生成CART决策树
其中,算法停止计算的条件是:结点中的样本点个数小于预定阈值,或样本集的基尼指数小于预定阈值(也就是说此时样本基本属于同一类),或者没有更多特征。

同样我们还是拿之前的数据集来走一遍生成流程:

I D 年龄 有工作 有自己的房子 贷款情况 类别 1 青年 否 否 一般 否 2 青年 否 否 好 否 3 青年 是 否 好 是 4 青年 是 是 一般 是 5 青年 否 否 一般 否 6 中年 否 否 一般 否 7 中年 否 否 好 否 8 中年 是 是 好 是 9 中年 否 是 非常好 是 10 中年 否 是 非常好 是 11 老年 否 是 非常好 是 12 老年 否 是 好 是 13 老年 是 否 好 是 14 老年 是 否 非常好 是 15 老年 否 否 一般 否 \begin{array}{c|cc} \hline ID&\text{年龄}&\text{有工作}&\text{有自己的房子}&\text{贷款情况}&\text{类别}\\ \hline 1&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 2&\text{青年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 3&\text{青年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 4&\text{青年}&\text{是}&\text{是}&\text{一般}&\text{是}\\ 5&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hline 6&\text{中年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 7&\text{中年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 8&\text{中年}&\text{是}&\text{是}&\text{好}&\text{是}\\ 9&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 10&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ \hline 11&\text{老年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 12&\text{老年}&\text{否}&\text{是}&\text{好}&\text{是}\\ 13&\text{老年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 14&\text{老年}&\text{是}&\text{否}&\text{非常好}&\text{是}\\ 15&\text{老年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hli

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值