详解决策树、python实现决策树

最新推荐文章于 2023-07-01 20:19:20 发布

仍歌

最新推荐文章于 2023-07-01 20:19:20 发布

阅读量3.9w

点赞数 30

分类专栏：机器学习笔记文章标签： python 决策树信息熵

本文链接：https://blog.csdn.net/ruggier/article/details/78756447

版权

本文详细介绍了决策树模型，包括定义、决策过程、决策树学习和特征选择。重点讨论了信息增益作为特征选择的依据，并介绍了ID3算法的原理。此外，还给出了使用Python实现决策树的示例。

摘要由CSDN通过智能技术生成

决策树模型

定义

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点（Node）和有向边（directed edge）组成。节点有两种类型：内部节点（internal node）和叶节点（left node）。内部节点表示一个特征或一个属性，叶节点表示一个类。

决策过程

用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点（每一个子节点对应着特征的一个取值）。递归的进行测试和分配，直至叶节点，得到分类结果。

我们来举个例子，看一下决策树的决策过程。

假设小明要出门了，需要选择一种出行方式，假设出行方式有以下几种：步行，自行车，驾车，地铁。如果距离很近，那么小明就选择步行，如果不是特别远，就选择自行车，如果特别远的话，就要选择驾车或地铁了。然后考虑今天是不是限号呢，不限号就驾车，限号就只能地铁了，现在我们把这个决策过程画出来。
这里写图片描述

上图就表示了小明在选在出行方式时的策略，对照上述的定义，可以看出这棵决策树有两个内部节点（距离、限号）、四个叶节点（步行，骑车，驾车、地铁），也就是说在决策的时候要考虑这两个特征，最终的结果可能有四种。

决策树学习

目标：决策树的学习，就是根据数据集构建出一棵决策树。我们希望构建出来的决策树，既能很好的对数据集进行分类，又具有很好的泛化能力。

启发式学习：由于基于特征空间划分的类的条件概率模型有无限多个，从所有可能的决策树中选取最优化决策树是NP完全问题，所以现实中决策树学习算法是采用启发式方法，近似求解这一最优化问题，这样得到的决策树是次优的。也就是说现实中的决策树学习算法，一般是逐步构建决策树，每次选取的特征是保证最优划分的，但是这样的得到的决策树不一定是所有可能的决策树中最优的。

学习过程：决策树学习算法通常就是递归的选择最优特征，兵器人根据该特征对训练集进行划分，在划分之后的训练集上再进行决策树学习算法，如果能够大致分类，则设置成叶节点，否则继续选择最优特征，知道所有的训练数据子集都能被正确的分类或者没有可选的特征为止。

剪枝：这样的算法生成的决策树，一般对训练集的分类效果很好、但泛化能力不强，也就是说容易产生过拟合现象。因此需要对构建好的数据集进行剪枝，将树变得更简单，因而具有更好的泛化能力。

可以看出决策树的学习算法一般包含三个过程：特征选择、决策树生成和决策树剪枝。