西瓜书学习（一）—决策树（上）

最新推荐文章于 2024-09-30 18:05:50 发布

quinn1994

最新推荐文章于 2024-09-30 18:05:50 发布

阅读量8.3k

点赞数 18

分类专栏：机器学习神经网络与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quinn1994/article/details/80083933

版权

机器学习同时被 2 个专栏收录

24 篇文章 9 订阅

订阅专栏

神经网络与机器学习

16 篇文章 5 订阅

订阅专栏

1）什么是决策树？
顾名思义，决策树是以树形的结构方式来对事件做决定和分类。我们以来判断一个瓜是不是好瓜来举例子，如下：
决策树的结构一般包含一个根节点，若干个内部节点和若干个叶节点；根节点包含所有样本（各种各样的瓜）。内部节点是西瓜的属性（根茎叶是什么样子的），叶节点是结论（好瓜，坏瓜）。每条从根节点到叶节点的路径就代表一种属性判定路径。
2）划分依据
你可能要问，西瓜有那么多属性，我们到底先选择什么来作为第一个判定属性？我们怎么分类才能让该属性下的样本尽可能是“一伙儿”的。
(1)第一种划分依据
信息熵(info entropy)
信息熵是用来度量样本集合纯度最常用的指标，其公式如下：

其中p是所分类的西瓜样本所占总样本的比例(k=1,2,3....y)。Ent(D)的值越小，则 D的纯度越高。
信息增益
假定离散属性a有V个可能取值{a1，a2，a3.....av }，我们若用a来对样本集合D来进行划分，则会产生V个分支结点，其中第v个分支结点包含D中所有在属性a上取值为av的样本，记做Dv。则信息增益公式如下：

这里，我们将信息增益的大小作为划分结点的依据。如果节点的某属性信息增益最大，我们就以该属性来划分此结点。每个属性划分都只能用一次。
( 2)第二种划分依据
可能你已经发现了，由于权重的存在，信息增益准则对包含数目较多的属性有偏好。为了减少这种不“客观”的判定，我们选择”增益率“(C4.5)来划分属性。公式如下;

其中

这里IV(a)称之为属性a的固有值。通常情况下，a越大，固有值越大。这样就减小了上面信息增益对包含数目多的属性的偏好。但是尴尬的是，似乎减少的太多了。增益率对包含数目较少的属性有偏好，这里Quinlan提出了一种方法：先找出信息增益高于平均水平的，然后再选出增益率最高的。
(3)第三种划分依据

基尼指数，公式如下：

这里的基尼指数越小，则数据集D的纯度越高。同理，推广到属性a的基尼指数如下：

这里选择基尼指数最小的属性作为划分的依据。
3）建立一棵决策树(示例)

这里，我们来判断一棵西瓜的好坏。现在有17颗西瓜，其属性状况如下：

显然，根节点是这17个样本。好了，我们现在开始计算了。
(1)计算第一层内结点
首先，计算样本的信息熵。

很明显我们要分类的结果是好与坏两种类别，则|y|=2。那么其信息熵如下：

这里有8个好瓜，9个坏瓜。

接下来，我们要计算各个属性的信息增益，我们以色泽举例。色泽包含三种情况{青绿，乌黑，浅白}。其好瓜样本占属性样本比例分别是3/6，4/6，1/5。坏瓜样本占属性样本比例分别是3/6，2/6，4/5。则根据信息熵公式(4.1)得到：

再根据公式(4.2)计算‘色泽’的信息增益得到：

同理，我们计算得到其他属性的信息增益如下：

我们可以看到纹理的信息增益最大，为0.381。于是我们选择纹理作为我们的第一层属性结点。如下：

(2)第二层属性结点

我们已经在第一层属性结点中用过了“纹理”，所以本层就不可以再用了。首先，我们在由“纹理”划分出的“清晰”样本{1，2，3，4，5，6，8，10，15}中，计算各剩余属性的信息增益。我们这里以色泽举例，如下：

首先计算‘“清晰”样本的信息熵：

接下来计算各个属性的信息熵：

接下来，计算”色泽“在”清晰“样本中的信息增益:

同理，我们计算其他属性在“清晰”样本下的信息增益。如下：

我们可以看到“脐部”，“根蒂”，”触感“三个属性的信息增益最大，所以本层，我们任选三个属性的一个来分类。我们这里选择“根蒂”，如下：

那么，剩下的两个二级样本稍糊和模糊呢？我们来看稍糊：

稍糊有样本{7，9，13，14，17}。我们对该样本求信息熵得到：

同理，计算各属性的信息熵，不再包括属性“根蒂”，。然后再计算信息增益，如下：

同理，计算得到其他的信息增益。得到触感是最适合的属性。如下：

至于模糊就简单了，因为”模糊“这类样本只有坏瓜，第二层决策树枝到此结束。
(3)第三层属性结点

这里我们先从第二层的第一类属性(根蒂)开始，将其分成三类样本。如下：

这里，我们很容易发现这里的蜷缩和硬挺都已经结束。这里，只需要对”稍蜷“样本进行分类。其样本有{6，8，15}。同理，我们需要计算信息熵，信息增益，还是首先以”色泽“来计算。如下：

2.计算剩余的熵：

3.计算增益：

计算剩余的信息增益，得到色泽是最大的增益。这里选择”色泽“做为我们第三层的属性划分。同理，我们对第四层，第五层做属性划分。得到最终的决策树：

今天我们就到这里，剩下的剪枝处理，连续值和缺失值处理后面再讲。希望有志同道合的小伙伴关注我的公众平台，欢迎您的批评指正，共同交流进步。

关注

18
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

quinn1994 CSDN认证博客专家 CSDN认证企业博客

码龄7年

128: 原创

3万+: 周排名

148万+: 总排名

105万+: 访问

: 等级

7208: 积分

496: 粉丝

986: 获赞

267: 评论

5016: 收藏

私信

关注

热门文章

分类专栏

最新评论

一阶低通滤波器的传递函数分析
shiaboboa: 讲的不错，很清晰
elmo驱动器用stm32单片机控制
吃嘛嘛香142: 请问单片机控制驱动器怎么实现，是PC控制单片机来控制驱动器，还是直接单片机控制驱动器
python遗传算法(详解)
zdtgbj: 我为什么完整代码跑不出来
遗传算法关于多目标优化python（详解）
HUST_zxs: （接上一条评论，因为单次评论限制1000字符以内）当然，即使有这两个问题，代码还是可以正常运行，这里其实涉及到了NSGAII的原理了。在父代和子代共同组成的多个帕累托前沿中，NSGAII会先用某些较优的帕累托前沿的全部个体填充新父代，填充到一定程度，再用某个帕累托前沿的部分个体填充新父代，填充至种群数量。实际上，只有当用某个帕累托前沿的部分个体填充新父代时，拥挤距离才真正发挥出筛选个体的作用，也就是说，拥挤距离真正发挥作用的场景其实有限。回到代码，即使拥挤距离相关的计算有错误，这种错误并不影响NSGAII用某些较优的帕累托前沿的全部个体填充新父代的过程，所以种群的进化还是可以得到保证，这种错误产生的不利影响也只是筛选某个帕累托前沿里的个体时，筛选没有那么准而已。用通俗的话说就是，有错误，但是错误不致命，所以代码还是可以正常运行。另外，还有很多细节不完善，会让初学者很困惑： 1. 调用函数时，传递的参数都是list的切片，仔细分析代码会发现，有些地方其实可以直接传递list的名字，而有些地方必须传递list的切片。 2. 注释有误导性，比如sort_by_values函数和fast_non_dominated_sort函数前面的注释，还不如不写。 3. 拥挤距离相关的代码都不够简洁。
遗传算法关于多目标优化python（详解）
HUST_zxs: 仔细学习了这个代码，这个代码其实是求两个目标函数的最大值，但是用matplotlib画图的时候，为了让画图效果和原理讲解里的画法一致（也就是帕累托前沿是第一象限里的曲线），所以取目标函数的相反数，作者没交代清楚这一点。除了评论区提到的130行和132行的问题外，还有两个比较大的问题： 1. 拥挤距离的计算没有意义，因为在crowding_distance函数里，先把输入的front内部的个体按照目标函数1的值从小到大排序，计算出的拥挤距离是目标函数1下的排序后的个体的拥挤距离，再把输入的front内部的个体按照目标函数2的值从小到大排序，计算出的拥挤距离是目标函数2下的排序后的个体的拥挤距离，两种拥挤距离对应的个体顺序不一样，那么两种拥挤距离相加没有意义（也就是129行~132行）。 2. 极其隐蔽的错误，按照拥挤距离筛选个体的操作有误（这个错误是和拥挤距离的计算没有意义相关的一个错误），crowding_distance函数输出的distance其实和输入的front内部的个体的原有顺序没有关联了，而在精英策略里，通过拥挤距离筛选个体时，计算某个front对应的拥挤距离从小到大排序的顺序，再用这个顺序作为索引取出这个front里的个体，并不等价于front里的个体按照其对应的拥挤距离从小到大排序的结果（也就是196行，197行），所以操作有误。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。