周志华《机器学习》课后习题解答系列（五）：Ch4.3 - 编程实现ID3算法

最新推荐文章于 2024-04-30 16:07:34 发布

Snoopy_Yuan

最新推荐文章于 2024-04-30 16:07:34 发布

阅读量1.2w

点赞数 12

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习决策树 id3算法 python graphviz

本文链接：https://blog.csdn.net/snoopy_yuan/article/details/68959025

本文详细介绍了如何用Python编程实现ID3决策树算法，包括数据预处理、决策树节点类建立、递归实现决策树生成、最优属性选择以及训练集和测试集的划分。通过可视化和实验分析，探讨了不同划分方式对预测精度的影响，并提出剪枝以提高决策树的泛化能力。

相关答案和源代码托管在我的Github上：PY131/Machine-Learning_ZhouZhihua.

这里基于python编程实现的方式，详细解答和编码过程如下：（查看完整代码）：

这里由数据表生成.csv文件（注意中文字符的编码格式）。采用pandas.read_csv()读取数据，然后采用seaborn可视化部分数据来进行初步判断。

观察数据可知，变量包含’色泽’等8个属性，其中6个标称属性，2个连续属性。类标签为西瓜是否好瓜（两类）：

下面是一些数据可视化图像：

下图是含糖率和密度两个连续变量的可视化图，这个图在之前的练习中也有出现：

这里写图片描述

下图则是更多的变量两两组合可视化图：

这里写图片描述

基于可视化手段进行一些分析，可以大概了解数据的分布及其与类别的关系。

在进行编程之前，先做一些分析如下：

下面是实现过程：

该节点类包含当前节点的属性，向下划分的属性取值，节点的类标签（叶节点有效，为通用性而保留所有节点类标签）；

样例代码如下：

'''
definition of decision node class

@variable attr: attribution as parent for a new branching 
@variable attr_down: dict: {key, value}

200万优质内容无限畅学