机器学习-决策树（基本流程、划分选择）

lullaby_UUN

已于 2022-11-16 09:48:00 修改

阅读量4.9k

点赞数

文章标签：决策树人工智能

于 2022-11-16 09:30:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lullaby_UUN/article/details/127872437

版权

1.决策树简介

决策树是一棵树，其中每个分支节点代表多个备选方案之间的选择，每个叶节点代表一个决策。它是一种监督学习算法，主要用于分类问题，适用于分类和连续输入和输出变量。是归纳推理的最广泛使用和实用的方法之一（归纳推理是从具体例子中得出一般结论的过程）。决策树从给定的例子中学习和训练数据，并预测不可见的情况。

·与决策树相关的重要术语

基本术语：

根节点(Root Node)：它代表整个种群或样本，并进一步分为两个或更多个同类集。
拆分(Splitting)：这是将节点划分为两个或更多个子节点的过程。
决策节点(Decision Node)：当子节点分裂成更多的子节点时，它被称为决策节点。
叶子/终端节点(Leaf/ Terminal Node)：不分割的节点称为叶子或终端节点。

1.1决策树实例

决策树算法的本质是一种图结构，只需要问一系列问题就可以对数据进行分类

可以看出，在这个决策过程中，我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论都叫做叶子节点。

决策树算法的核心是要解决两个问题：

（1）如何从数据表中找出最佳节点和最佳分枝？（即怎么构造决策树）

（2）如何让决策树停止生长，防止过拟合？（即如何剪枝）

几乎所有决策树有关的模型调整方法，都围绕这两个问题展开。

1.2基本流程

（1）收集数据

（2）准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。

（3）分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。

（4）训练算法：构造树的数据结构。

（5）测试算法：使用经验树计算错误率。

（6）使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

2.划分选择

2.1信息增益（ID3算法）

信息增益指的就是划分可以带来纯度的提高，信息熵的下降。它的计算公式，是父亲节点的信息熵减去所有子节点的信息熵。在计算的过程中，我们会计算每个子节点的归一化信息熵，即按照每个子节点在父节点中出现的概率，来计算这些子节点的信息熵。所以信息增益的公式可以表示为：

ID3的算法规则相对简单，可解释性强。同样也存在缺陷，比如我们会发现ID3算法倾向于选择取值比较多的属性。这种缺陷不是每次都会发生，只是存在一定的概率。在大部分情况下，ID3 都能生成不错的决策树分类。

ID3算法的核心思想：根据样本子集属性取值的信息增益值的大小来选择决策属性(即决策树的非叶子结点)，并根据该属性的不同取值生成决策树的分支，再对子集进行递归调用该方法，当所有子集的数据都只包含于同一个类别时结束。最后，根据生成的决策树模型，对新的、未知类别的数据对象进行分类。

ID3算法优点：方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。

ID3算法缺点：倾向于选择那些属性取值比较多的属性，在实际的应用中往往取值比较多的属性对分类没有太大价值、不能对连续属性进行处理、对噪声数据比较敏感、需计算每一个属性的信息增益值、计算代价较高。

决策树算法的关键在于如何选择最优划分属性。一般而言，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即其纯度越高越好。

通常，使用信息熵（information entropy）来作为度量样本纯度的标准，计算公式为：

Ent( D ) 的值越小，则 D 的纯度越高

• 计算信息熵时约定：若 p = 0 ，则 p log 2 p =0

• Ent( D ) 的最小值为 0 ，最大值为

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。