决策树的构建

最新推荐文章于 2023-11-06 14:35:27 发布

ChanKamShing

最新推荐文章于 2023-11-06 14:35:27 发布

阅读量1.6k

点赞数 3

分类专栏：大数据数据结构与算法

本文链接：https://blog.csdn.net/weixin_39400271/article/details/101054698

版权

本文介绍了决策树的构建过程，包括信息增益的概念、决策树的构建步骤，以及一个实例说明。通过计算Shannon熵选择最优属性标签，并提供代码实现，详细解释了如何递归创建决策树并进行新数据的预测。

摘要由CSDN通过智能技术生成

决策树可分为两类：回归决策树和分类决策树。

决策树必须涉及到一个概念，就是信息增益。信息增益又基于信息熵的知识（可参考里面关于信息熵的部分内容：https://blog.csdn.net/weixin_39400271/article/details/100921346）。

信息增益（Information Gain）的公式： g(D|A) = E(D) - E(D|A)

式中， E(D) 为全信息量的信息熵， E(D|A) 为属性A的信息熵。

在决定树的前后节点的时候，会涉及到最优信息增益的问题，根据信息增益的大小排序。

递归划分步骤的终止条件为：

给定节点的所有样本属于同一类。
没有剩余属性可以用来进一步划分样本。在这种情况下，使用多数表决，将给定的点转成树叶，并以样本中元组个数最多的类别为类别标记，同时也可以存放该节点样本的类别分布。
如果某一分支没有满足分支中已有分类的样本，则以样本的多数类创建一个树叶。

以上任一条件成立，都会终止递归。

关注

专栏目录