随机变量X的熵的表达式:
比如X有2个可能的取值,而这两个取值各为1/2时X的熵最大。
两个变量X和Y的联合熵:
条件熵的表达式H(X|Y),它度量了我们的X在知道Y以后剩下的不确定性:
信息增益:H(X)-H(X|Y),它度量了X在知道Y以后不确定性减少程度,在信息论中称为互信息,记为I(X,Y)。ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。信息增益大,则越适合用来分类。
决策树ID3算法的不足:
- 没有考虑连续特征
- 采用信息增益大的特征优先建立决策树的节点。在相同条件下,取值比较多的特征比取值少的特征信息增益大。
- ID3算法对于缺失值的情况没有做考虑
- 没有考虑过拟合的问题
过程:
-
初始化信息增益的阈值ϵ
-
判断样本是否为同一类输出Di,如果是则返回单节点树T。标记类别为Di
-
判断特征是否为空,如果是则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别。
-
计算A中的各个特征(一共n个)对输出D的信息增益,选择信息增益最大的特征Ag
-
如果AgAg的信息增益小于阈值ϵ,则返回单节点树T,标记类别为样本中输出类别D实例数最多的类别。
-
否则,按特征AgAg的不同取值AgiAgi将对应的样本输出D分成不同的类别DiDi。每个类别产生一个子节点。对应特征值为Agi。返回增加了节点的数T。
-
对于所有的子节点,令D=Di,A=A−{Ag}D=Di,A=A−{Ag}递归调用2-6步,得到子树Ti并返回
C4.5算法:可以处理连续特征,思路是将连续的特征离散化。比如m个样本的连续特征A有m个,从小到大排列为
区相邻两样本平均数,一共m-1个划分点。第i个划分点为:
对于这m-1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。这样我们就做到了连续特征的离散化。与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。
ID3算法使用信息增益作为标准,容易偏向于取值较多的特征。C4.5做了如下改进:引入信息增益比
特征熵
其中n为特征A的类别数, Di为特征A的第i个取值对应的样本个数。D为样本个数。特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。
对于缺失值处理需要解决两个问题:一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。
对于第一个子问题,对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数,这个系数是无特征A缺失的样本加权后所占加权总样本的比例。
对于第二个子问题,可以将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9, 4/9。
对于第4个问题,C4.5引入了正则化系数进行初步的剪枝。
CART算法:使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
基尼系数的表达式:
K为类别数,pk为第k个类别的概率。
对于个给定的样本D,假设有K个类别, 第k个类别的数量为Ck,则样本D的基尼系数表达式为:
对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算。
对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。
对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。
CART回归树和CART分类树的建立和预测的区别:CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。
对于决策树建立后做预测的方式,CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
CART算法的剪枝:
由于决策树算法很容易对训练集过拟合,而导致泛化能力差,为了解决这个问题,我们需要对CART树进行剪枝,即类似于线性回归的正则化,来增加决策树的泛化能力。
CART采用的办法是后剪枝法,即先生成决策树,然后产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,选择泛化能力最好的剪枝策略。
在剪枝的过程中,对于任意的一刻子树T,其损失函数为:
α为正则化参数,为训练数据的预测误差。是子树T的叶子节点的数量。当α=0时,即没有正则化,原始的生成的CART树即为最优子树。当α=∞时,即正则化强度达到最大,此时由原始的生成的CART树的根节点组成的单节点树为最优子树。这是两种极端情况。一般来说,α越大,则剪枝剪的越厉害,生成的最优子树相比原生决策树就越偏小。对于固定的α,一定存在使损失函数最小的唯一子树。
对于位于节点t的任意一颗子树Tt,如果没有剪枝,它的损失是
如果将其剪掉,仅仅保留根节点,则损失是
当α=0或者α很小时,
当α增大到一定的程度时,,当α继续增大时不等式反向
如果满足下式:
Tt和T有相同的损失函数。但是T节点更少,因此可以对子树Tt进行剪枝,也就是将它的子节点全部剪掉,变为一个叶子节点T。可以计算出每个子树是否剪枝的阈值α,如果我们把所有的节点是否剪枝的值α都计算出来,然后分别针对不同的α所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的α,有了这个α,我们就可以用对应的最优子树作为最终结果。
算法过程如下:
1、初始化,最优子树集合。
2、从叶子节点开始自下而上计算各内部节点t的训练误差损失函数:。叶子节点数:
以及正则化阈值
3、得到所有节点的α值的集合M。
4、从M中选择最大的值αk,自上而下的访问子树t的内部节点,如果
进行剪枝。并决定叶节点t的值。如果是分类树,则是概率最高的类别,如果是回归树,则是所有样本输出的均值。这样得到αk对应的最优子树
5、
6、如果M不为空,则回到步骤4。否则就已经得到了所有的可选最优子树集合ω.
7、采用交叉验证在ω选择最优子树