CART(Classification And Regression Tree)算法原理详解

最新推荐文章于 2024-06-29 02:11:12 发布

npupengsir

最新推荐文章于 2024-06-29 02:11:12 发布

阅读量8.1k

点赞数 2

分类专栏：算法入门文章标签： cart算法

本文链接：https://blog.csdn.net/u012897374/article/details/74999724

版权

算法入门专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1. Gini指数

CART决策树是用”吉尼指数”来选择属性划分。数据集D的纯度可用基尼值来度量：

G i n i (D) = \sum k = 1 n \sum k' \neq k p k p k' = 1 - \sum k = 1 n p 2 k

$Gini(D)=\sum_{k=1}^n\sum_{k'\not=k}p_kp_{k'}=1-\sum_{k=1}^np_k^2$
直观来说，

Gini(D) $Gini(D)$ 反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此

Gini(D) $Gini(D)$ 越小，数据集D纯度越高。因此属性

α $\alpha$ 的基尼指数定义为：

G i n i (D, α) = \sum v = 1 V | D v | | D | G i n i (D v)

$Gini(D,\alpha)=\sum_{v=1}^V\frac {|D^v|}{|D|}Gini(D^v)$
假设数据集D在属性

α $\alpha$ 上有

V $V$ 个不同的取值，则用属性

α $\alpha$ 来划分时，一共有

v $v$ 个不同的分支。

Dv $D^v$ 指的是D中在

α $\alpha$ 属性上取值为

αv $\alpha^v$ 的所有样本集合。

Gini(Dv) $Gini(D^v)$ 指的是前面划分的子样本集合

Dv $D^v$ 在标签

label $label$ 上的

Gini $Gini$ 不纯度。

因此我们要做的就是在属性集合 $A=\{\alpha_1,\alpha_2...,\alpha_n\}$ 中，我们需要找出使得 $Gini(D,\alpha_i)$ 最小的 $\alpha_i$ ，即：

α * = arg min α \in A G i n i (D, α)

$\alpha_*=\arg\min_{\alpha \in A}Gini(D,\alpha)$
下面以一个简单的例子来进行说明：

ID	有房	婚姻状况	年收入	label(是否拖欠贷款)
1	是	单身	125K	否
2	否	已婚	100K	否
3	否	单身	70K	否
4	是	已婚	120K	否
5	否	离异	95K	是
6	否	已婚	60K	否
7	是	离异	220K	否
8	否	单身	85K	是
9	否	已婚	75K	否
10	否	单身	90K	是

若采用是否有房作为分裂属性，则:

拖欠?	有房	无房
未拖欠	3	4
拖欠	0	3

则:

G i n i 有 房 = 1 - (3 3) 2 - (0 3) 2 = 0

$Gini_{有房}=1-({\frac33})^2-({\frac 03})^2=0$

G i n i 无 房 = 1 - (4 7) 2 - (3 7) 2 = 0.4849

$Gini_{无房}=1-({\frac47})^2-({\frac 37})^2=0.4849$
故

G i n i h o u s e = 7 10 \times G i n i 无 房 = 7 10 \times 0.4849 = 0.343

$Gini_{house}=\frac 7{10}\times Gini_{无房}=\frac 7{10}\times 0.4849=0.343$
对于婚姻状况，有3种情况:

是否离异

拖欠?	单身或已婚	离异
未拖欠	6	1
拖欠	2	1

此时

G i n i t 1 = 1 - (6 8) 2 - (2 8) 2 = 0.375

$Gini_{t1}=1-(\frac 68)^2-(\frac 28)^2=0.375$

G i n i t 2 = 1 - (1 2) 2 - (1 2) 2 = 0.5

$Gini_{t2}=1-(\frac 12)^2-(\frac 12)^2=0.5$
则

G i n i 1 = 0.8 \times 0.375 + 0.2 \times 0.5 = 0.4

$Gini_1=0.8\times 0.375+0.2\times 0.5=0.4$

是否已婚

拖欠?	单身或离异	已婚
未拖欠	3	4
拖欠	3	0

此时

G i n i t 1 = 1 - (3 3) 2 - (3 3) 2 = 0.5 $ ， $ G i n i t 2 = 1 - (4 4) 2 = 0

$Gini_{t1}=1-(\frac 33)^2-(\frac 33)^2=0.5$，$Gini_{t2}=1-(\frac 44)^2=0$
则

G i n i 2 = 0.6 \times 0.5 = 0.3

$Gini_2=0.6\times 0.5=0.3$

是否单身

拖欠?	离异或已婚	单身
未拖欠	5	2
拖欠	1	2

此时

G i n i t 1 = 1 - (5 6) 2 - (1 6) 2 = 0.2778

$Gini_{t1}=1-(\frac 56)^2-(\frac 16)^2=0.2778$

G i n i t 2 = 1 - (2 2) 2 - (2 2) 2 = 0.5

$Gini_{t2}=1-(\frac 22)^2-(\frac 22)^2=0.5$
则

G i n i 3 = 0.6 \times 0.2778 + 0.4 \times 0.5 = 0.3667

$Gini_3=0.6\times 0.2778+0.4\times 0.5=0.3667$
对于连续属性年收入，假设个样本的集合一个属性有个连续的值，那么则会有个分裂点，每个分裂点为相邻两个连续值的均值，每个属性的划分按照能减少的杂质的量来进行排序。采用如下方式来计算：
这里写图片描述

分局基尼系数最小的原则，可以选择年收入是否大于97K或者是否已婚来作为第一步的分裂条件。

2. 分裂的终止条件

节点达到完全纯度
树的深度达到用户要求的深度
节点中样本个数少于指定数目
分类条件和列别的相关程度很弱
此时说明分裂条件和类别独立，即此时的分裂条件是没有道理的，节点应该停止分裂。这里的分裂条件是按照上面的 $Gini$ Gini指数最小原则得到的分裂条件。独立性检验采用 $\chi^2$ 检验法，例如下表：

此时动物类别与是否为恒温相互独立，再继续分裂没有意义，因此停止分裂。