决策树之ID3算法

最新推荐文章于 2024-08-20 21:04:48 发布

焕听

最新推荐文章于 2024-08-20 21:04:48 发布

阅读量1.4k

点赞数

分类专栏：机器学习算法文章标签：机器学习决策树 ID3 python 实例分析

本文链接：https://blog.csdn.net/u011070169/article/details/68988375

版权

本文介绍了ID3决策树算法的基本原理，通过实例分析展示了如何根据信息增益选择最佳分类属性，以及如何递归构建决策树。算法通过计算熵和信息增益来评估数据集的纯度，并以此构造决策树模型。

摘要由CSDN通过智能技术生成

本文主要参考Peter Harrington著的《Machine Learning in Action》一书以及华南理工大学的王国强同学的论文《基于深度图像的人体部位识别及动作识别》，若有不妥之处欢迎指出。

ID3算法的基本原理：

ID3算法是采用自上而下构造的决策树进行学习的，其中的关键自然是如何是构建一个决策树。对于决策树构造，我们在每一个分裂节点采用统计测试的方法来确定此分裂分类属性的分类能力。具有最强分类能力的属性将被作为本分类节点的分类属性。然后以此属性将分裂节点的样本分类到此分裂节点所属的分支，在每个分支的节点上形成新的分类样本。然后递归此过程，将分支所得到的分类样本根据以上的方法进行分类直到树生成的截止条件，形成最后具有分类属性的叶子节点。这样就形成了我们所需要的自上而下的构造的决策树，采用贪婪搜索且不用考虑以前的选择。

我们看一个书中的实例：

表中的数据包含5个海洋生物，特征包括：不浮出水面是否可以生存，以及是否有脚蹼，我们可以将这些动物分成两类：鱼类和非鱼类，现在我们想要决定依据第一个特征还是第二个特征划分数据，在回答这个问题之前，我们必须采用量化的方法判断如何划分数据。

def createDataset():
    dataset={[1,1,'yes'];
                [1,1.'yes'],
                [1,0,'no'],
                [0,1,'no'],
                [0,1,'no']}
    labels = ['no surfacing','flippers']
return dataset,labels