对决策树的理解和学习

(部分资料来自西瓜书)

基本算法

决策树是一类非常常见的机器学习方法。
对于一个新数据,根据其属性 ,从树的根节点开始,沿着分支,经过若干内部结点,最终到达某一个叶结点,将叶结点存放的类别作为决策结果。
例:西瓜决策树如下:
在这里插入图片描述

原理:

1.对于一个存在 d 个属性的训练集
2.选择其中一个属性 ,根据属性的取值把训练集划分为若干子集。
3.若某个子集中只含有一个类别的数据,那么该子集所在的分支结点可以作为一个叶结点。如果该子集不纯,则用剩下 d 1 个属性重复 步骤 2 ,直到 (1)属性集为空;( 2 )当前子集包含的样本集合为空。

使用决策树算法时,有两个核心问题:
1.如何安排属性划分顺序
2.是不是要把所有属性都用一遍?

划分选择

目的是:让当前步划分出的子集尽量“纯”。

“信息熵”(information entropy )是度量样本集合纯度最常用的指标。假定集合D 中第 k 类样本所占的比例为 𝑝𝑘(𝑘=1,2,…,|𝑦|),那么 D 的信息熵为:
在这里插入图片描述
显然,信息熵的值越小,D 的纯度就越高。假设某一离散属性包含V 个,那么根据这个属性,我们可以把 D 划分为 V 个样本子集,对于每一个样本子集都可以计算 𝐸𝑛𝑡𝐷𝑣,𝑣=1,2,…,𝑉。划分后的信息增益(information gain )为
在这里插入图片描述
|𝐷𝑣|表示第 v 个子集的样本量,红框内表示该子集的权重。

ID3算法

信息增益描述了当我们采用该属性进行划分时,会使得样本集合不确定性减少的程度。
ID3算法思想:在树的每一层进行划分时,选择使得当前信息增益最大的属性。对于该数据集其信息熵为
在这里插入图片描述
计算当前属性集合
色泽,根蒂,敲声,纹理,脐部,触感 中每个属性的信息增
益。
色泽有3 个可能的取值: 青绿,乌黑,浅白 。
D1(色泽 青绿 ) = {1, 4, 6, 10, 13, 17},正例 3/6 ,反例 3/6
D2(色泽 乌黑 ) = {2, 3, 7, 8, 9, 15},正例 4/6 ,反例 2/6
D3(色泽 浅白 ) = {5, 11, 12, 14, 16},正例 1/5 ,反例 4/5
在这里插入图片描述
因此,选择属性色泽进行划分,可以得到的信息增益是
在这里插入图片描述
同样,也可以得到其他属性的信息增益。
在这里插入图片描述
在第一次划分时,我们选择纹理,划分后的树如下
在这里插入图片描述
对这一枝进行进一步划分。计算剩下属性集合色泽、根蒂、敲声、脐部、触感的信息增益。
在这里插入图片描述
如此进行下去,我们可以慢慢地得到这样一棵树
在这里插入图片描述

C4.5 Algorithm

我们从上面求解信息增益的公式中,其实可以看出,信息增益准则其实是对可取值数目较多的属性有所偏好。
例如,我们把编号也作为一个特征变量,那么该特征每个取值只对应一个样本,这样划分的每个数据子集的信息熵都是 0 。此时,选择编号进行划分所得到的信息增益最大。
这样形成的决策树并不具有泛化能力。决策树也没有实际意义。
正是基于此,ID3 后面的 C4.5 采用了信息增益率这样一个概念。
对任意一个属性a ,引入固有值 (intrinsic value )这个概念:
在这里插入图片描述
当属性a 可取值越多,通常 IV(a) 就越大。以此作为除数,可以解决 ID3 偏向于取值数目较多的属性这一问题。用属性 a 进行划分的信息增益率为:
在这里插入图片描述
例如,在西瓜数据中,触感有两个取值,其IV 为 0.874 ;色泽有三个取值,其 IV 为1.580 ;编号则有 17 个取值,其 IV 为 4.088 。
然而使用信息增益率,可能又会导致决策树更加偏向使用可取值数目较少的属性。除了信息增益率,我们还想保证决策树具有较好的信息增益。
例如,在西瓜数据中,触感有两个取值,其IV 为 0.874 ;色泽有三个取值,其 IV 为1.580 ;编号则有 17 个取值,其 IV 为 4.088 。
这时,可以采用启发式算法。从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值