机器学习实验二

最新推荐文章于 2023-06-28 21:45:25 发布

ZTtttong

最新推荐文章于 2023-06-28 21:45:25 发布

阅读量856

点赞数

文章标签：机器学习人工智能决策树

本文链接：https://blog.csdn.net/ZTtttong/article/details/122299345

版权

本文详细介绍了决策树的学习过程，包括算法原理、基本步骤、量化纯度的三种经典方法（信息增益、增益率、基尼指数），以及剪枝处理的预剪枝和后剪枝策略，旨在防止过拟合并提升模型的泛化能力。同时，讨论了连续值处理的方法，并以乳腺癌病例为例展示了决策树的代码实现。

摘要由CSDN通过智能技术生成

四、剪枝处理剪枝，是为了防止过拟合。有预剪枝和后剪枝两种方法。通过预留一部分验证集来检验剪枝的效果。

六、代码实现

一.算法原理

二.基本步骤

三.量化纯度

四.剪枝处理

五.连续值处理

一、算法原理

1.决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。
2.决策树需要监管学习，监管学习就是给出一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，那么通过学习这些样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。
3.决策树有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

二、基本步骤

决策树构建的基本步骤如下：

开始，所有记录看作一个节点
遍历每个变量的每一种分割方式，找到最好的分割点
分割成两个节点N1和N2
对N1和N2分别继续执行2-3步，直到每个节点足够“纯”为止
决策树的变量可以有两种：
1）数字型（Numeric）：变量类型是整数或浮点数，如前面例子中的“年龄”。用“>=”，“>”,“<”或“<=”作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。
2）名称型（Nominal）：类似编程语言中的枚举类型，变量只能重有限的选项中选取，比如前面例子中的“是否为公务员”，只能是“是”或“不是”。使用“=”来分割。

那么问题来了，怎么评判一个分割点的好坏？这时候，我们需要设定一个阈值，使得分类后的错误率最小，也就是说使分类结果更“纯”，这个就是学习决策树的关键部分。接下来介绍一下量化纯度的方法

三、量化纯度

经典的属性划分方法有3种，分别是：
–信息增益： ID 3
–增益率：C 4.5
–基尼指数：CART

1.对于ID3来说，信息熵是度量样本集合纯度最常用的一种指标，这里假设记录被分为n类，每一类的比例P(i)=第i类的数目/总数目，这里直接上个熵的公式：

Entropy的值越小，则D的纯度越高；计算信息熵时约定：若p = 0，则p·log2p=0；Entropy的最小值为0，最大值为log2|y|。
接下来再给出信息增益的定义和公式：

最低0.47元/天解锁文章

ZTtttong

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习实验二

一.算法原理二.基本步骤三.量化纯度四.剪枝处理五.连续值处理一、算法原理1.决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。2.决策树需要监管学习，监管学习就是给出一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，那么通过学习这些样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。3.决策树有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只
复制链接

扫一扫