决策树 结构_机器学习算法:决策树

本文介绍了决策树模型在分类和回归任务中的应用,通过一个动物识别的例子展示了决策树的工作原理。接着,详细阐述了决策树如何选择属性,包括信息增益、增益比和基尼指数三个度量标准,并通过一个购买计算机客户的例子说明了这些概念。信息增益倾向于选择值多的属性,而C4.5算法通过增益比解决了这一偏见。最后,解释了基尼指数在考虑二进制分割时评估属性纯度的方法。
摘要由CSDN通过智能技术生成

决策树是一种广泛使用的分类和回归任务模型。实际上,它们学习了“if-else”问题的层次结构,从而导致决策。决策树是类似树结构的流程图,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,并且每个叶节点(终端节点)保持类标签。

想象一下,你想要区分以下四种动物: 熊, 鹰, 企鹅和海豚。

目标是找到正确的答案,尽可能少地询问其他问题。

可以先问一下这种动物是否有羽毛,这个问题可以将你可能的动物缩小到只有两只动物。

如果答案是肯定的,你可以提出另一个可以帮助你区分鹰和企鹅的问题。例如,您可以询问动物是否可以飞行。

如果动物没有羽毛,你可能的动物选择是海豚和熊,你需要提出一个问题来区分这两种动物,例如,询问动物是否有鳍。

这一系列问题可以表达出来作为决策树,如下图所示。

91f25bfb433f2e9820831d92e54ee8ee.png

动物树决策树图

属性选择

假设我们的数据集如下。表1是关于购买计算机的客户。

9fde351144b72901324468583b26225b.png

表1 :决策树的数据集

决策树将显示如下数据

42624eac040532f3f91951bc510e89ff.png

数据集的决策树图

问题 :决策树算法是如何确定根节点的Age并分为两个节点 Student Credit rating等。

决策树有一些属性选择度量。

1)信息增益

2)增益比

3)基尼指数

属性选择的信息增益

这项措施是基于克劳德·香农在信息理论方面的开创性工作,该理论研究了信息的价值或“信息内容”。让我们计算所有特征(年龄,收入,学生,信用评级)的信息增益为了计算信息增益,我们需要按照以下步骤操作。

  1. 需要对D中的元组进行分类
c9ad497ad3ad69f695b7c0a749071e6c.png

公式1:数据集的预期信息值(熵)。p为概率

我们在目标列中总共有14行(“yes”= 9,“no”= 5)。因此,所有数据集的信息增益为:

2541340a0cf306806d8516153859bede.png

计算所有数据集的预期信息(熵)

2.所需的信息(使用A将D拆分为v个分区后)对D进行分类:

15362bd8de1998e5306ba9c7f43da01c.png

公式2:所需的信息(使用A将D拆分为v个分区后)

3.通过分支属性A获得的信息

cafc9471e983020a2e9e85d389fdc9b5.png

公式3:获得的信息

开始计算Age的信息增益。在年龄列的表2 中 -

对于(≤30)情况,我们有“是”(p = 2),“否”(n = 2)和 I(p,n)为0.971,

对于(31 ... 40),我们有“是”(p = 4),“否”(n = 0)和 I(p,n)为0,

对于(> 40),我们有“是”(p = 3),“否”(n = 2)和 I(p,n)为0.971

7c735b8e89da0cfe4e270b4dc994d859.png

表2:年龄的熵

计算年龄信息

7e86d920e3a1fdcd456637ac4cd16c51.png

对应公式2

ee22d8ff8fdd88477b65199553b32f9d.png

对应公式3

同样(收入,学生,信用评级):

6542c52857d57ac76dd33d24984ed638.png

Age信息的获取比其他特征更大。所以我们知道为什么决策树算法会先选择Age

属性选择的增益比率

信息增益度量用于在决策树的每个节点处选择测试属性。信息增益度量更喜欢选择具有大量值的属性。C4.5对基本决策树归纳算法ID3进行了改进。C4.5是ID3的后继产品,它使用一种称为增益比的信息增益扩展,试图克服这种偏差。

设S由具有m个不同类的S数据样本组成。对给定样本进行分类所需的期望信息由

f251fea379f84a44628934ca2339ee7f.png

通过分支A获得的编码信息是

c62240eb2d24dd82359893a4693a34f3.png

C4.5使用增益比,它使用定义为的值对信息增益进行归一化

04d88fa1f31984159158ba0ba6ae5c0b.png

上面的值表示将训练数据集S分割成v个分区,对应属性a测试的v个结果所生成的信息。

增益比定义为

c2d4e0bfc7ec844b89c1745b172ba8b0.png

在我们的情况下:

c068db0cbb75f15398252661e710adef.png
897d79e0be8f6ee65b8428261413a218.png

选择增益比最大的属性作为分割属性

属性选择的基尼索引

基尼索引为每个属性考虑二进制分割。基尼指数度量D(数据分区或一组训练元组)的杂质为,

2838655d80363f7a44b93fd4c24e1985.png

在考虑二进制分割时,我们计算每个结果分割的杂质的加权和。例如,如果一个分区D上的二进制分割为D1和D2,那么给定该分区的D的基尼指数为

9e47e32b425acca16ef14b2a2327ae3e.png

对于每个属性,都要考虑可能的二进制分割。对于离散值属性,为该属性提供最小基尼系数的子集作为其分割属性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值