决策树的进阶-----属性值为连续

长得不丑的小林

已于 2022-11-27 22:00:04 修改

阅读量1.1k

点赞数 1

文章标签：决策树算法

于 2022-11-22 15:58:59 首次发布

本文链接：https://blog.csdn.net/qq_60197466/article/details/127962363

版权

本文深入浅出地介绍了决策树的基本概念、实现步骤及其在分类任务中的应用。文章详细阐述了特征选择、决策树生成及剪枝等核心环节，并通过具体案例展示了如何利用信息增益进行特征选择，以及如何处理连续属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.决策树概述

1.1决策树概念

决策树（decision tree）是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树是一种描述对实例进行分类的树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。分类决策树模型是一种树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶节点。内部结点表示一个特征或属性，叶节点表示一个类。

1.2决策树实现步骤

决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪。

特征选择：从训练数据的特征中选择一个特征作为当前节点的分裂标准（特征选择的标准不同产生了不同的特征决策树算法）。
决策树生成：根据所选特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止声场。
决策树剪枝：决策树容易过拟合，需要剪枝来缩小树的结构和规模（包括预剪枝和后剪枝）。

算法基本流程：

将所有数据放在根节点
选择一个最优的特征，根据这个特征将训练数据分割成子集，使得各个子集在当前条件下有一个最好的分类
递归下去，直到所有数据子集都被基本正确分类、或者没有合适的特征为止
递归返回的三个条件：
（1）当前结点点包含的样本全部属于同一类别
（2）当前属性集为空，或者是所有样本在所有属性的取值均相同，无法划分
（3）当前结点包含的样本集合为空

1.3分类原理

信息增益，它表示得知特征 A 的信息而使得样本集合不确定性减少的程度。数据集的信息熵公式如下：

表示集合 D 中属于第 k 类样本的样本子集。

针对某个特征 A，对于数据集 D 的条件熵 H(D|A) 为：

信息增益 = 信息熵 - 条件熵：

信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”