数据挖掘--分类之决策树算法ID3

最新推荐文章于 2020-08-29 17:25:58 发布

streamcc

最新推荐文章于 2020-08-29 17:25:58 发布

阅读量2.5k

点赞数 2

分类专栏： Data Mining 文章标签：数据挖掘算法分类决策树ID3

本文链接：https://blog.csdn.net/streamcc/article/details/14524575

版权

本文详细介绍了决策树算法ID3的原理，包括决策树的构造过程，选择测试属性的方法以及信息增益的概念。文章还提供了算法的逻辑描述和递归构建决策树的步骤，同时阐述了信息增益在选择描述属性中的作用，以减少类别属性的不确定性。

摘要由CSDN通过智能技术生成

一、决策树：

一棵决策树由一个根节点，一组内部节点和一组叶节点组成。每个内部节点（包括根节点）表示在一个属性上的测试，每个分枝表示一个测试输出，每个叶节点表示一个类，有时不同的叶节点可以表示相同的类。

建立一棵决策树，需要解决的问题主要有：
1）如何选择测试属性？
测试属性的选择顺序影响决策树的结构甚至决策树的准确率，一般使用信息增益度量来选择测试属性。
2）如何停止划分样本？
从根节点测试属性开始，每个内部节点测试属性都把样本空间划分为若干个（子）区域，一般当某个（子）区域的样本同类时，就停止划分样本，有时也通过阈值提前停止划分样本。

二、算法：

1. 算法思想及描述
首先，在整个训练数据集S、所有描述属性A1, A2, …, Am上递归地建立决策树。即将S作为根节点；如果S中的样本属于同一类别，则将S作为叶节点并用其中的类别标识，决策树建立完成（递归出口）；
否则在S上计算当给定Ak（1≤k≤m）时类别属性C的信息增益G(C, Ak)，选择信息增益最大的Ai作为根节点的测试属性；如果Ai的取值个数为v（取值记为a1, a2, …, av），则Ai将S划分为v个子集S1, S2, …, Sv（Sj（1≤j≤v）为S中Ai=aj的样本集合），同时根节点产生v个分枝与之对应。其次，分别在训练数据子集S1, S2, …, Sv、剩余描述属性A1, …, Ai-1, Ai+1, …, Am上采用相同方法递归地建立决策树子树（递归）。

可能出现如下情况，需要停止建立决策（子）树的递归过程。
1）某节点对应的训练数据（子）集为空。此时，该节点作为叶节点并用父节点中占多数的样本类别标识。
2）某节点没有对应的（剩余）描述属性。此时，该节点作为叶节点并用该节点中占多数的样本类别标识。

算法：决策树分类算法Generate_decision_tree（S, A）
输入：训练数据集S，描述属性集合A
输出：决策树
步骤：
（1）创建对应S的节点Node;
（2）if S中的样本属于同一类别c then
以c标识Node并将Node作为叶节点返回;
（3）if A为空 then
以S中占多数的样本类别c标识Node并将Node作为叶节点返回;

（4）从A中选择对S而言信息增益最大的描述属性Ai作为Node的测试属性;
（5）for Ai的每个可能取值aj（1≤j≤v ） //设Ai的可能取值为a1, a2, …, av
（5.1）产生S的一个子集Sj //Sj（1≤j≤v）为S中Ai=aj的样本集合;
（5.2）if Sj为空 then
创建对应Sj的节点Nj，以S中占多数的样本类别c标识Nj，并将Nj作为叶节点形成Node的一个分枝
（5.3）else 由Generate_decision_tree（Sj, A-{Ai}）创建子树形成Node的一个分枝;