ID3决策树学习算法——python实现

最新推荐文章于 2024-08-02 17:08:43 发布

m元元a

最新推荐文章于 2024-08-02 17:08:43 发布

阅读量3.4k

点赞数 12

文章标签：决策树 python 算法

本文链接：https://blog.csdn.net/MYuan0209/article/details/127210184

版权

本周“人工智能理论与实践”课程老师要求复现决策树算法，本人复现思路参考周志华老师的《机器学习》书中的决策树学习基本算法，数据集使用的是书中“西瓜数据集2.0”。

这是本人的第一篇博客，如有问题还请大家多多指正。完整代码及训练数据已上传至Github。GitHub - MYuan0209/Decision-Tree----ID3

问题描述

给定一个西瓜特征与是否为好瓜对应的表格，利用决策树判断是否为好瓜。

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

决策树

基本概念

决策树是一类常见的机器学习方法，其本质是通过树的结构来完成二分类任务。

决策树一般包含一个根节点，若干个内部节点和若干个叶子节点。其中叶子节点对应的是决策结果，其它每个节点对应的是一个属性测试。每个节点包含的样本集合根据属性测试的结果被划分到其子节点中，从根节点到每个叶子节点的路径对应着一个判定序列。

划分选择

我们如何选择属性测试的顺序从而达到最优划分？一般而言，我们希望每次划分后能够让尽可能多的样本属于同一类别。ID3决策树学习算法是以信息增益为准则来选择划分属性。

假定当前样本集合D中第k类样本所占的比例为 $p_{k}$ (k = 1, 2, ..., $\left | y \right |$ )，则D的信息熵定义为

$Ent(D) = -\sum_{k=1}^{\left | y \right |}p_{k}log_{2}p_{k} .$

假定离散属性a有V个可能的取值{ $a^{1}, a^{2}, ..., a^{V}$ }，若使用a来对样本集合D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为 $a^{v}$ 的样本，记为 $D^{v}$ 。属性a对样本集合D进行划分所获得的信息增益为

$Gain(D, a) = Ent(D) - \sum_{v=1}^{n}\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}).$

一般而言，信息增益越大，则代表着使用属性a来进行划分后样本尽可能多的属于同一个类别。ID3决策树学习算法使用的选择属性公式为

$a_{*} = argmax Gain(D, a), a\in A.$