决策树学习的关键就是如何选择最优划分属性
- 信息增益——ID3算法
1.1 信息论基础
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下: H ( X ) = − ∑ i = 1 n p i log p i H(X)=-\sum^n_{i=1}p_i\log p_i H(X)=−i=1∑npilogpi其中 n n n代表 X X X的 n n n种不同的离散取值。而 p i p_i pi代表了 X X X取值为 i i i的概率。举个例子,比如 X X X有2个可能的取值,而这两个取值各为 1 2 \frac12 21时 X X X的熵最大,此时 X X X具有最大的不确定性。值为 H ( X ) = − ( 1 2 log 1 2 + 1 2 log 1 2 ) = log 2 H(X)=-(\frac12\log \frac12+\frac12\log \frac12)=\log 2 H(X)=−(21log21+21log21)=log2。如果一个值概率大于 1 2 \frac12 21,另一个值概率小于 1 2 \frac12 21,则不确定性减少,对应的熵也会减少。比如一个概率 1 3 \frac13 31,一个概率 2 3 \frac23 32,则对应熵为 H ( X ) = − ( 1 3 log 1 3 + 2 3 log 2 3 ) = log 3 − 2 3 log 2 < log 2 H(X)=-(\frac13\log \frac13+\frac23\log \frac23)=\log 3 -\frac23\log 2<\log 2 H(X)=−(31log31+32log32)=log3−32log2<log2。
熟悉了一个变量 X X X的熵,很容易推广到多个个变量的联合熵,这里给出两个变量 X X X和 Y Y Y的联合熵表达式: H ( X , Y ) = − ∑ i = 1 n p ( x i , y i ) log p ( x i , y i ) H(X,Y)=-\sum^n_{i=1}p(x_i,y_i)\log p(x_i,y_i) H(X,Y)=−i=1∑np(xi,yi)logp(xi,yi)有了联合熵,又可以得到条件熵的表达式 H ( X ∣ Y ) H(X|Y) H(X∣Y),条件熵类似于条件概率,它度量了我们的 X X X在知道 Y Y Y以后剩下的不确定性。表达式如下: H ( X ∣ Y ) = − ∑ i = 1 n p ( x i , y i ) log p ( x i ∣ y i ) = ∑ j = 1 n p ( y j ) H ( X ∣ y j ) H(X|Y)=-\sum^n_{i=1}p(x_i,y_i)\log p(x_i|y_i)=\sum^n_{j=1}p(y_j)H(X|y_j) H(X∣Y)=−i=1∑np(xi,yi)logp(xi∣yi)=j=1∑np(yj)H(X∣yj)我们刚才提到 H ( X ) H(X) H(X)度量了 X X X的不确定性,条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)度量了我们在知道 Y Y Y以后 X X X剩下的不确定性,那么 H ( X ) − H ( X ∣ Y ) H(X)-H(X|Y) H(X)−H(X∣Y)度量了 X X X在知道 Y Y Y以后不确定性减少程度,这个度量我们在信息论中称为互信息,记为 I ( X , Y ) I(X,Y) I(X,Y)。
在决策树ID3算法中叫做信息增益。ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。信息增益大,则越适合用来分类。
1.2 算法思路
上面提到ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。这里我们举一个信息增益计算的具体的例子。比如我们有15个样本D,输出为0或者1。其中有9个输出为1, 6个输出为0。 样本中有个特征A,取值为A1,A2和A3。在取值为A1的样本的输出中,有3个输出为1, 2个输出为0,取值为A2的样本输出中,2个输出为1,3个输出为0, 在取值为A3的样本中,4个输出为1,1个输出为0.
样本D的熵为: H ( D ) = − ( 9 15 log 2 9 15 + 6 15 log 2 6 15 ) = 0.971 H(D)=-(\frac9{15}\log_2 \frac9{15}+\frac6{15}\log_2 \frac6{15})=0.971 H(D)=−(159log2159+156log2156)=0.971
样本D在特征A下的条件熵为: H ( D ∣ A ) = 5 15 H ( D 1 ) + 5 15 H ( D 2 ) + 5 15 H ( D 3 ) = − 5 15 ( 3 5 log 2 3 5 + 2 5 log 2 2 5 ) − 5 15 ( 2 5 log 2 2 5 + 3 5 log 2 3 5 ) − 5 15 ( 4 5 log 2 4 5 + 1 5 log 2 1 5 ) = 0.888 H(D|A)=\frac5{15}H(D1)+\frac5{15}H(D2)+\frac5{15}H(D3)=-\frac5{15}(\frac35\log_2 \frac35+\frac25\log_2 \frac25)-\frac5{15}(\frac25\log_2 \frac25+\frac35\log_2 \frac35)-\frac5{15}(\frac45\log_2 \frac45+\frac15\log_2 \frac15)=0.888 H(D∣A)=155H(D1)+155H(D2)+155H(D3)=−155(53log253+52log252)−155(52log252+53log253)−155(54log254+51log251)=0.888
对应的信息增益为 I ( D , A ) = H ( D ) − H ( D ∣ A ) = 0.083 I(D,A)=H(D)-H(D|A)=0.083 I(D,A)=H(D)−H(D∣A)=0.083
下面我们看看具体算法过程大概是怎么样的。
输入的是 m m m个样本,样本输出集合为D,每个样本有n个离散特征,特征集合即为A,输出为决策树T。
算法的过程为:
1)初始化信息增益的阈值𝜖
2)判断样本是否为同一类输出 D i D_i Di,如果是则返回单节点树T。标记类别为 D i D_i Di。
3)判断特征是否为空,如果是则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别。
4)计算A中的各个特征(一共n个)对输出D的信息增益,选择信息增益最大的特征 A g A_g Ag。
5)如果 A g A_g Ag的信息增益小于阈值𝜖,则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别。
6)否则,按特征 A g A_g Ag的不同取值 A g i A_{gi} Agi将对应的样本输出D分成不同的类别 D i D_i Di。每个类别产生一个子节点。对应特征值为 A g i A_{gi} Agi。返回增加了节点的数T。
7)对于所有的子节点,令 D = D i , A = A − { A g } D=D_i,A=A-\{A_{g}\} D=Di,A=A−{Ag}递归调用2-6步,得到子树 T i T_i Ti并返回。
1.3 缺点
ID3算法虽然提出了新思路,但是还是有很多值得改进的地方。
1)ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
2)ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。如果校正这个问题呢?
3) ID3算法对于缺失值的情况没有做考虑
4)没有考虑过拟合的问题
ID3 算法的作者昆兰基于上述不足,对ID3算法做了改进,即C4.5算法 - 增益率——C4.5算法
上一节我们讲到ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问题和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。
2.1 对于第一个问题(不能处理连续值)
C4.5的思路是将连续的特征离散化。比如 m m m个样本的连续特征A有 m m m个,从小到大排列为 a 1 , a 2 , … … a m a_1,a2,……a_m a1,a2,……am,则C4.5取相邻两样本值的平均数,一共取得 m − 1 m-1 m−1个划分点,其中第 i i i个划分点 T i = a i + a i + 1 2 T_i=\frac{a_i+a_i+1}2 Ti=2ai+ai+1。对于这 m − 1 m-1 m−1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为 a t a_t at,则小于 a t a_t at的值为类别1,大于 a t a_t at的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。(具体的特征值离散化即选取,参考https://blog.csdn.net/w144215160044/article/details/82810239)
2.2 对于第二个问题(信息增益作为标准容易偏向于取值较多的特征)
我们引入一个信息增益率的变量,是信息增益和特征熵的比值: I R ( D , A ) = I ( D , A ) H A ( D ) I_R(D,A)=\frac {I(D,A)}{H_A(D)} IR(D,A)=HA(D)I(D,A)
其中D为样本特征输出的集合,A为样本特征,对于特征熵 H A ( D ) H_A(D) HA(D)表达式: H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ log 2 ∣ D i ∣ ∣ D ∣ H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|} HA(D)=−i=1∑n∣D∣∣Di∣log2∣D∣∣Di∣其中 n n n为特征A的类别数, D i D_i Di为特征A的第i个取值对应的样本个数。 ∣ D ∣ |D| ∣D∣为样本个数。
特征数越多的特征对应的特征熵越大,它作为分母(惩罚项),可以校正信息增益容易偏向于取值较多的特征的问题。
2.3 对于第三个问题(未考虑缺失值)
主要需要解决的是两个问题:
1)在样本某些特征缺失的情况下选择划分的属性。
将数据分成两部分,对每个样本设置一个权重(初始可以都为1)
计算无缺失样本所占比例:
ρ = ∑ x ∈ D ~ w x ∑ x ∈ D w x ρ=\frac{\sum_{x∈\widetilde D}w_x}{\sum_{x∈D}w_x} ρ=∑x∈Dwx∑x∈D wx计算无缺失值样本中第 k k k类所占的比例
p ~ k = ∑ x ∈ D ~ k w x ∑ x ∈ D ~ w x ( 1 ≤ k ≤ ∣ Y ∣ ) \widetilde p_k=\frac{\sum_{x∈\widetilde D_k}w_x}{\sum_{x∈\widetilde D}w_x} (1\le k\le |Y|) p k=∑x∈D wx∑x∈D kwx(1≤k≤∣Y∣)计算无缺失值样本中在属性 A A A上取值为 a v a^v av的样本所占的比例 r ~ v = ∑ x ∈ D ~ v w x ∑ x ∈ D ~ w x ( 1 ≤ v ≤ ∣ V ∣ ) \widetilde r_v=\frac{\sum_{x∈\widetilde D^v}w_x}{\sum_{x∈\widetilde D}w_x}(1\le v\le |V|) r v=∑x∈D wx∑x∈D vwx(1≤v≤∣V∣)对上边的信息增益公式进行修改: I ( D , A ) = ρ × I ( D ~ , A ) = ρ × ( H ( D ~ ) − ∑ v = 1 V r ~ v H ( D ~ v ) ) I(D,A)=ρ\times I(\widetilde D,A)=ρ\times (H(\widetilde D)-\sum ^V_{v=1}\widetilde r_vH(\widetilde D^v)) I(D,A)=ρ×I(D ,A)=ρ×(H(D )−v=1∑Vr vH(D v))其中 H ( D ~ ) = − ∑ k = 1 ∣ Y ∣ p ~ k log 2 p ~ k H(\widetilde D)=-\sum^{|Y|}_{k=1}\widetilde p_k\log_2\widetilde p_k H(D )=−k=1∑∣Y∣p klog2p k
2)选定了划分属性,对于在该属性上缺失特征的样本的处理。
若样本 x x x在划分属性 A A A上的取值未知,则将 x x x同时划入所有子节点中,此刻要调整该样本 x x x的权重为: r ~ v . w x \widetilde r_v.w_x r v.wx。直观的看,就是让同一个样本以不同的概率划入到不同的子节点中。
2.4 对于第四个问题(未考虑过拟合)
C4.5引入了正则化系数进行初步的剪枝。
1)预剪枝,即在生成决策树的时候就决定是否剪枝。
2)后剪枝,即先生成决策树,再通过交叉验证来剪枝。
2.5 缺点
1)C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率。
2)C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。
3)C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话,那就更好了。 - 基尼指数——CART算法
3.1 特征选择
CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。
具体的,在分类问题中,假设有 K K K个类别,第 k k k个类别的概率为 p k p_k pk,则基尼系数的表达式为: G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(p)=\sum^K_{k=1}p_k(1-p_k)=1-\sum^K_{k=1}p^2_k Gini(p)=k=1∑Kpk(1−pk)=1−k=1∑Kpk2如果是二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是 p p p,则基尼系数的表达式为: G i n i ( p ) = 2 p ( 1 − p ) Gini(p)=2p(1-p) Gini(p)=2p(1−p)对于个给定的样本D,假设有 K K K个类别, 第 k k k个类别的数量为 C k C_k Ck,则样本D的基尼系数表达式为: G i n i ( D ) = 1 − ∑ k = 1 K ( ∣ C k ∣ ∣ D ∣ ) 2 Gini(D)=1-\sum^K_{k=1}(\frac{|C_k|}{|D|})^2 Gini(D)=1−k=1∑K(∣D∣∣Ck∣)2特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为: G i n i ( D , A ) = ∣ D 1 ∣ ∣ D ∣ G i n i ( D 1 ) ∣ D 2 ∣ ∣ D ∣ G i n i ( D 2 ) Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)\frac{|D_2|}{|D|}Gini(D_2) Gini(D,A)=∣D∣∣D1∣Gini(D1)∣D∣∣D2∣Gini(D2)
从上图可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算,二可以建立一个更加优雅的二叉树模型。
3.2 连续值与离散值处理
1)对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。
2)对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。
回忆下ID3或者C4.5,如果某个特征A被选取建立决策树节点,如果它有A1,A2,A3三种类别,我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同,他采用的是不停的二分,还是这个例子,CART分类树会考虑把A分成 { A 1 } \{A1\} {A1}和 { A 2 , A 3 } \{A2,A3\} {A2,A3}, { A 2 } \{A2\} {A2}和 { A 1 , A 3 } \{A1,A3\} {A1,A3}, { A 3 } \{A3\} {A3}和 { A 1 , A 2 } \{A1,A2\} {A1,A2}三种情况,找到基尼系数最小的组合,比如 { A 2 } \{A2\} {A2}和 { A 1 , A 3 } \{A1,A3\} {A1,A3},然后建立二叉树节点,一个节点是 { A 2 } \{A2\} {A2}对应的样本,另一个节点是 { A 1 , A 3 } \{A1,A3\} {A1,A3}。同时,由于这次没有把特征A的取值完全分开,后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同,在ID3或者C4.5的一棵子树中,离散特征只会参与一次节点的建立。
3.3 算法流程
算法输入是训练集D,基尼系数的阈值,样本个数阈值。
输出是决策树T。
我们的算法从根节点开始,用训练集递归的建立CART树。
1)对于当前节点的数据集为D,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。
2)计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
3)计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数,对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。
4)在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,做节点的数据集D为D1,右节点的数据集D为D2。
5)对左右的子节点递归的调用1-4步,生成决策树。
3.4 CART回归树建立
CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方。
首先,我们要明白,什么是回归树,什么是分类树。两者的区别在于样本输出,如果样本输出是离散值,那么这是一颗分类树。如果果样本输出是连续值,那么那么这是一颗回归树。
除了概念的不同,CART回归树和CART分类树的建立和预测的区别主要有下面两点:
1)连续值的处理方法不同
2)决策树建立后做预测的方式不同。
对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为: m i n [ m i n ∑ x i ∈ D 1 ( A , s ) ( y i − c 1 ) 2 + m i n ∑ x i ∈ D 2 ( A , s ) ( y i − c 2 ) 2 ] min[min\sum_{x_i∈D_1(A,s)}(y_i-c_1)^2+min\sum_{x_i∈D_2(A,s)}(y_i-c_2)^2] min[minxi∈D1(A,s)∑(yi−c1)2+minxi∈D2(A,s)∑(yi−c2)2]其中, c 1 c_1 c1为D1数据集的样本输出均值, c 2 c_2 c2为D2数据集的样本输出均值。
对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
3.5 优点
CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。 - 决策树总结
算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝
ID3 分类 多叉树 信息增益 不支持 不支持 不支持
C4.5 分类 多叉树 信息增益比 支持 支持 支持
CART 分类,回归 二叉树 基尼系数,均方差 支持 支持 支持 - 决策树优缺点
首先我们看看决策树算法的优点:
1)简单直观,生成的决策树很直观。
2)基本不需要预处理,不需要提前归一化,处理缺失值。
3)使用决策树预测的代价是 O ( log 2 m ) O(\log_2m) O(log2m)。 m为样本数。
4)既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
5)可以处理多维度输出的分类问题。
6)相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释
7)可以交叉验证的剪枝来选择模型,从而提高泛化能力。
8) 对于异常点的容错能力好,健壮性高。
我们再看看决策树算法的缺点:
1)决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
2)决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
3)寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。
4)有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
5)如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。