机器学习（二）---决策树算法学习

最新推荐文章于 2024-08-04 21:08:26 发布

向阳而生|X

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量1.7k

点赞数 2

分类专栏：机器学习文章标签：决策树机器学习算法

本文链接：https://blog.csdn.net/m0_50945459/article/details/120973299

版权

前言

决策树（decision tree）：是一种基本的分类与回归方法。

在分类问题中，表示基于特征对实例进行分类的过程，可以认为是 if-then 的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树学习的目标：根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类

决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪

同时我们接下来还需要了解熵，条件熵，信息增益，信息增益比，基尼指数这些概念

决策树由下面几种元素构成

根节点：包含样本的全集
内部节点：对应特征属性测试
叶节点：代表决策的结果

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程

划分数据集的最大原则是：将无序的数据变得更加有序

被选中的维度的特征具体在哪个值上进行划分呢？

接下来我们将实现以下3种方法

ID3 算法

ID3 是最早提出的决策树算法，他就是利用信息增益来选择特征的。

C4.5 算法

他是 ID3 的改进版，他不是直接使用信息增益，而是引入“信息增益比”指标作为特征的选择依据。

CART（Classification and Regression Tree）

这种算法即可以用于分类，也可以用于回归问题。CART 算法使用了基尼系数取代了信息熵模型

使用决策树做预测需要以下过程：

收集数据：可以使用任何方法。比如想构建一个相亲系统，我们可以从媒婆那里，或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果，就可以得到一些供我们利用的数据了。
准备数据：收集完的数据，我们要进行整理，将这些所有收集的信息按照一定规则整理出来，并排版，方便我们进行后续处理。
分析数据：可以使用任何方法，决策树构造完成之后，我们可以检查决策树图形是否符合预期。
训练算法：这个过程也就是构造决策树，同样也可以说是决策树学习，就是构造一个决策树的数据结构。
测试算法：使用经验树计算错误率。当错误率达到了可接收范围，这个决策树就可以投放使用了。
使用算法：此步骤可以使用适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

如何构造一个决策树

def createBranch():
'''
此处运用了迭代的思想。 感兴趣可以搜索 迭代 recursion， 甚至是 dynamic programing。
'''
    检测数据集中的所有数据的分类标签是否相同:
        If so return 类标签
        Else:
            寻找划分数据集的最好特征（划分之后信息熵最小，也就是信息增益最大的特征）
            划分数据集
            创建分支节点
                for 每个划分的子集
                    调用函数 createBranch （创建分支的函数）并增加返回结果到分支节点中

最低0.47元/天解锁文章