决策树——ID3算法实现

最新推荐文章于 2024-08-20 21:04:48 发布

HeiGe__

最新推荐文章于 2024-08-20 21:04:48 发布

阅读量2.3k

点赞数 1

分类专栏：人工智能文章标签：决策树机器学习人工智能作业 ID3算法

本文链接：https://blog.csdn.net/HeiGe__/article/details/81607391

版权

本文介绍了决策树的基本概念、递归结束条件及核心思想，并详细讲解了ID3算法，包括信息熵、信息增益等关键概念。此外，还提到了C4.5和CART算法的区别。在实验环境中，使用Python3.6和macOS 10.12进行决策树的实现。通过西瓜数据集2.0，展示了如何通过代码构建和可视化决策树，最终得出完整的决策树结构。

摘要由CSDN通过智能技术生成

决策树：构建一个基于属性的树形分类器。
1.每个非叶节点表示一个特征属性上的测试（分割），
2.每个分支代表这个特征属性在某个值域上的输出，
3.每个叶节点存放一个类别。
使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。
采用递归的方法进行建树

递归的结束条件

1.当前结点样本均属于同一类别，无需划分。
2.当前属性集为空。
3.所有样本在当前属性集上取值相同，无法划分。
4.当前结点包含的样本集合为空，不能划分。

决策树的核心

经过属性划分后，不同类样本被更好的分离
理想情况：划分后样本被完美分类。即每个分支的样本都属性同一类。
实际情况：不可能完美划分！尽量使得每个分支某一类样本比例尽量高！即尽量提高划分后子集的纯度。

划分的目标：提升划分后子集的纯度，降低划分后子集的不纯度

决策树算法分类

决策树算法的区别主要在于所采用的纯度判别标准

ID3算法：

使用信息增益作为判别标准
信息熵计算公式：

假设属性��有��可能取值{��^1,��^2,⋯⋯,��^��}, ��^��对应划分后的数据子集为��^��.

信息增益：

信息增益越大，说明当前的划分效果越好

C4.5算法

使用信息增益率作为判别准则

��(��)称为属性��的“固有值”（Intrinsic Value）

信息增益率越大，说明当前划分效果越好

CART算法

使用基尼系数作为判别准则
信息增益

实验环境

python3.6
macOS 10.12

代码思路

BuildTree函数：在该函数中完成递归建树，递归返回条件的判断，建立存储树所用的字典，打印各类信息
ChooseAttr函数：在该函数中完成选出最佳特征的功能，根据Ent函数计算出的所有样本的信息熵和加权的信息熵计算信息增益，信息增越大的意味着该属性的纯度越高，选取信息增益最大的属性为最佳属性。
Ent函数：计算输入样本的信息熵，通过输入Sample的最后一列统计出该正例与反例出现的概率，根据信息熵公式计算信息熵
SpiltData函数：该函数用于对数据进行拆分，去掉已经判断过的属性对应的样本
CreatePlot函数：用于决策树的可视化

数据集

使用西瓜书上的西瓜数据集2.0
为了方便计算，将西瓜数据集的内容转换为数字
色泽： 0：青绿 1：乌黑 2：浅白
根底： 0：蜷缩 1：少蜷 2：硬挺
敲声： 0：浊响 1：沉闷 2：清脆
纹理： 0：清晰 1：稍糊 2：模糊
脐部： 0：凹陷 1：稍凹 2：平坦
触感： 0：硬滑 1：软黏
好瓜： 0：不是 1：是

上代码

import math
import numpy
import DrawTree

数据集,属性列表

#初始化一个属性列表
AttrArr=["色泽","根蒂","敲声","纹理","脐部","触感","好瓜"]
#此处使用西瓜数据集2.0
data = numpy.array(
[[0,0,0,0,0,0,1],
[1,0,1,0,0,0,1],
[1,0,0,0,0,0,1],
[0,0,1,0,0,0,1],
[2,0,0,0,0,0,1],
[0,1,0,0,1,1,1],
[1,1,