一、ID3算法
D3算法核心是根据 “最大信息熵增益” 原则选择划分当前数据集的最好特征。“信息熵” 在上一篇博客中写过,它是一种信息度量方式,其不确定度越大或者说越混乱,熵就越大。
E
n
t
(
D
)
=
−
∑
k
=
1
∣
Y
∣
p
k
log
2
p
k
(
信
息
熵
)
Ent(D)=-\sum_{k=1}^{|Y|} p_k\log_2 p_k~~~~~~~~~~~~~~~~(信息熵)
Ent(D)=−k=1∑∣Y∣pklog2pk (信息熵)
建立决策树的过程中,根据特征属性划分数据,使得原本 “混乱” 数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。
ID3算法中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
E
n
t
(
D
v
)
(
信
息
增
益
)
Gain(D,a)=Ent(D)-\sum_{v=1}^{V} \frac{|D^v|}{|D|} Ent(D^v)~~~~~~~~~~~(信息增益)
Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv) (信息增益)
缺点:
- ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
- 对倾向于可取值数目较多的属性。
- ID3算法对于缺失值的情况没有做考虑。
- 没有考虑过拟合的问题
原因:
- 信息增益反映的是给定一个划分条件后不确定性减少的程度(或纯度提升的程度),因此必然是分得越细的数据集确定性更高,信息增益越大。
二、C4.5算法
C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比,以解决偏向取值较多的属性的问题,另外它可以处理连续型属性。
G
a
i
n
_
r
a
t
i
o
(
D
,
a
)
=
G
a
i
n
(
D
,
a
)
I
V
(
a
)
(
信
息
增
益
率
)
Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}~~~~~~~~~~~~~~(信息增益率)
Gain_ratio(D,a)=IV(a)Gain(D,a) (信息增益率)
I
V
(
a
)
=
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
l
o
g
2
∣
D
v
∣
∣
D
∣
(
属
性
a
的
固
有
值
)
~~~~~~IV(a)=-\sum_{v=1}^{V} \frac{|D^v|}{|D|} log_2 \frac{|D^v|}{|D|}~~~~~~~~~~~~~~~~~~~~(属性a的固有值)
IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣ (属性a的固有值)
属性 a 的取值数目越多(即 V 越大),则 IV(a) 的值通常越大。
缺点:
- 在树构造过程中,C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算,需要对数据集进行多次的顺序扫描和排序,因而导致算法效率降低。
- C4.5算法只适用于能够驻留于内存的数据集,当训练集大于内存容量时,程序则无法运行。
- C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率
优点:
- 属性变量可以是连续型的
需注意的是,增益率准则对可取值数目较少的属性有所偏好。因此,C4.5算法并不是直接选择 “信息增益率” 最大的候选划分属性,而是使用了一个 “启发式”:先从候选划分属性中找出 “信息增益” 高于平均水平的属性,再从中选择 “增益率” 最高的作为划分属性。
三、CART算法
1、CART分类树算法的最优特征选择方法
在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所以CART的叶子节点比非叶子多1。
相比ID3和C4.5,CART应用要多一些,既可以用于分类也可以用于回归。CART分类时,使用基尼指数(Gini)来选择最好的数据分割特征,Gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低Gini系数。
G
i
n
i
(
D
)
=
∑
k
=
1
∣
Y
∣
∑
k
′
≠
k
p
k
p
k
′
Gini(D)=\sum_{k=1}^{|Y|} \sum_{k\prime\not=k} p_kp_k\prime~~~~~~~~~~~~~~~~~~~~~~~~
Gini(D)=k=1∑∣Y∣k′=k∑pkpk′
=
∑
k
=
1
∣
Y
∣
∑
k
′
≠
k
p
k
⋅
(
1
−
p
k
)
~~~~=\sum_{k=1}^{|Y|} \sum_{k\prime\not=k} p_k\cdot(1-p_k)
=k=1∑∣Y∣k′=k∑pk⋅(1−pk)
=
1
−
∑
k
=
1
∣
Y
∣
p
k
2
=1-\sum_{k=1}^{|Y|} p_k^2~~~~~~~~~~~~
=1−k=1∑∣Y∣pk2
如果是二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是p,则基尼系数的表达式为:
G
i
n
i
(
p
)
=
2
p
(
1
−
p
)
Gini(p)=2p(1−p)
Gini(p)=2p(1−p)
对于个给定的样本D,假设有K个类别, 第k个类别的数量为 C k C_k Ck,则样本D的基尼系数表达式为:
G i n i ( D ) = 1 − ∑ 1 = k K ( ∣ C k ∣ ∣ D ∣ ) 2 Gini(D)=1−\sum_{1=k}^{K}(\frac{|C_k|}{|D|})^2 Gini(D)=1−1=k∑K(∣D∣∣Ck∣)2
Gini(D) 反映了从数据集 D 中随机抽取两个样本,其类别标记不一致的概率。Gini(D) 越小,则数据集 D 的纯度越高。
属性 a 的基尼指数定义为
G
i
n
i
_
i
n
d
e
x
(
D
,
a
)
=
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
G
i
n
i
(
D
v
)
Gini\_index(D,a)=\sum_{v=1}^{V} \frac{|D^v|}{|D|} Gini(D^v)
Gini_index(D,a)=v=1∑V∣D∣∣Dv∣Gini(Dv)
特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
G
i
n
i
_
i
n
d
e
x
(
D
,
a
)
=
∣
D
1
∣
∣
D
∣
G
i
n
i
(
D
1
)
+
∣
D
2
∣
∣
D
∣
G
i
n
i
(
D
2
)
Gini\_index(D,a)=\frac{|D^1|}{|D|} Gini(D^1)+\frac{|D^2|}{|D|} Gini(D^2)
Gini_index(D,a)=∣D∣∣D1∣Gini(D1)+∣D∣∣D2∣Gini(D2)
因此在候选划分属性中,选择使得划分后基尼系数最小的属性作为最优划分属性,即 a ∗ = arg a ∈ A G i n i _ i n d e x ( D , a ) 。 a_*=\arg_{a\in A} Gini\_index(D,a)。 a∗=arga∈AGini_index(D,a)。
大家可以比较下基尼系数表达式和熵模型的表达式,二次运算是不是比对数简单很多?尤其是二类分类的计算,更加简单。但是简单归简单,和熵模型的度量方式比,基尼系数对应的误差有多大呢?对于二类分类,基尼系数和熵之半的曲线如下:
从上图可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算,二可以建立一个更加优雅的二叉树模型。
基尼不纯度指标:
在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性;基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。
2、CART分类树算法对于连续特征和离散特征处理的改进
对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。 唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。
具体的思路如下,如m个样本的连续特征A有m个,从小到大排列为 a 1 , a 2 , . . . , a m a_1,a_2,...,a_m a1,a2,...,am,则CART算法取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点Ti表示为: T i = a i + a i + 1 2 T_i=\frac{a_i+a_{i+1}}{2} Ti=2ai+ai+1。对于这 m-1 个点,分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为 a t a_t at, 则小于 a t a_t at 的值为类别1,大于 a t a_t at 的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与ID3或者C4.5处理离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。
对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。
回忆下ID3或者C4.5,如果某个特征A被选取建立决策树节点,如果它有A1,A2,A3三种类别,我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同,他采用的是不停的二分,还是这个例子,CART分类树会考虑把A分成{A1}和{A2,A3}, {A2}和{A1,A3}, {A3}和{A1,A2}三种情况,找到基尼系数最小的组合,比如{A2}和{A1,A3},然后建立二叉树节点,一个节点是A2对应的样本,另一个节点是{A1,A3}对应的节点。同时,由于这次没有把特征A的取值完全分开,后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同,在ID3或者C4.5的一棵子树中,离散特征只会参与一次节点的建立。
3、CART分类树建立算法的具体流程
算法输入是训练集D,基尼系数的阈值,样本个数阈值。
输出是决策树T。
我们的算法从根节点开始,用训练集递归的建立CART树。
- 对于当前节点的数据集为D,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。
- 计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
- 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数,对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。
- 在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,做节点的数据集D为D1,右节点的数据集D为D2.
- 对左右的子节点递归的调用1-4步,生成决策树。
对于生成的决策树做预测的时候,假如测试集里的样本A落到了某个叶子节点,而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。
4.、CART回归树建立算法
CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方。
首先,我们要明白,什么是回归树,什么是分类树。两者的区别在于样本输出,如果样本输出是离散值,那么这是一颗分类树。如果样本输出是连续值,那么那么这是一颗回归树。
除了概念的不同,CART回归树和CART分类树的建立和预测的区别主要有下面两点:
- 连续值的处理方法不同
- 决策树建立后做预测的方式不同。
对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:
其中,c1为D1数据集的样本输出均值,c2为D2数据集的样本输出均值。
对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
除了上面提到了以外,CART回归树和CART分类树的建立算法和预测没有什么区别。
5、CART算法小结
上面我们对CART算法做了一个详细的介绍,CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。当然CART树最大的好处是还可以做回归模型,这个C4.5没有。下表给出了ID3,C4.5和CART的一个比较总结。