经典监督学习算法——决策树

最新推荐文章于 2024-08-04 21:08:26 发布

四月是你的

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41438466/article/details/88916202

版权

本文介绍了决策树的基础知识，包括其解决的问题类型、种类，重点讨论了ID3算法的原理和应用，以及信息熵和信息增益的概念。文章还通过实例展示了如何建立和理解决策树，并探讨了决策树的优势和局限性。

摘要由CSDN通过智能技术生成

什么是决策树

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。
简单的说就是你做出决定的一系列依据，下面的一个例子能帮助我们很好地理解决策树的概念
在这里插入图片描述
决策树是一种树形结构，其生成过程是每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。通俗的说就是先选取一个对象的一个特征，在这个特征的所有取值上做出决策。叶节点就是我们做出的决策
决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪

决策树所解决的问题

分类问题（使用较多）
回归问题

决策树的种类

预备知识——信息熵
（看之前可以了解一下信息熵的创始人：克劳德·艾尔伍德·香农（Claude Elwood Shannon ，1916年4月30日—2001年2月24日））

先给出信息熵的公式：
在这里插入图片描述
其中：?(??)代表随机事件??的概率。
下面逐步介绍信息熵公式来源！

首先了解一下信息量：信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量 x 的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？

多少信息用信息量来衡量，我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如湖南产生地震了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生嘛，没什么信息量）。这很好理解！

因此一个具体事件的信息量应该是随着其发生概率而递减的，且不能为负。但是这个表示信息量函数的形式怎么找呢？随着概率增大而减少的函数形式太多了！不要着急，我们还有下面这条性质。

如果我们有俩个不相关的事件 x 和 y，那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和，即： h(x,y) = h(x) + h(y)

由于 x，y 是俩个不相关的事件，那么满足 p(x,y) = p(x)*p(y).

根据上面推导，我们很容易看出 h(x)一定与 p(x)的对数有关（因为只有对数形式的真数相乘之后，能够对应对数的相加形式，可以试试）。因此我们有信息量公式如下：

?(?) = −?????(?)

（1）为什么有一个负号？其中，负号是为了确保信息一定是正数或者是 0，总不能为负数吧！

（2）为什么底数为 2 这是因为，我们只需要信息量满足低概率事件 x 对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统，使用 2 作为对数的底！

信息熵下面正式引出信息熵：信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即

?(?) = −???(?(?)?????(?))

转换一下也就是：
在这里插入图片描述
最终我们的公式来源推导完成了。

信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。如果一个系统越简单，出现情况种类很少（极端情况为 1 种情况，那么对应概率为 1，那么对应的信息熵为 0），此时的信息熵较小。
最后附上对数函数一些性质，你画出 ?(?) = −????? 的图像会更加明了。

在这里插入图片描述

最低0.47元/天解锁文章

四月是你的

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。