决策树模型-理论基础

最新推荐文章于 2024-07-17 17:37:20 发布

LaoChen_ZeroonE

最新推荐文章于 2024-07-17 17:37:20 发布

阅读量1.3k

点赞数

分类专栏：机器学习模型

本文链接：https://blog.csdn.net/qq_34356768/article/details/106063650

版权

机器学习模型专栏收录该内容

14 篇文章 2 订阅

订阅专栏

决策树模型

信息增益
基尼系数
剪枝处理

分类决策树是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部节点（internal node）和叶节点（leaf node），内部结点表示一个特性或属性，也结点表示一个类。
用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点；这时，每一个子节点对应着特征的一个取值。如此递归地对实例进行测试并分配，直到达到叶节点。最后将实例分到叶节点的类中。决策树学习的目的就是为了产生一颗泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”（divide-and-conquer）策略。

在这里插入图片描述
决策树的生成是一个递归过程，在决策树基本算法中，有三种情形会导致递归返回：（1）当前结点包含的样本全属于同一类别，无需划分；（2）当前属性集为空，或是所有样本在属性上取值相同，无法划分；（3）当前结点包含的样本集合为空，不能划分。

信息增益

在这里插入图片描述

基尼系数

在这里插入图片描述

剪枝处理

剪枝（pruning）是决策树学习算法应对“过拟合”的主要方法。在决策树学习中，为了尽可能正确分类训练样本，结点划分有时会造成决策树分支过多，导致把训练集自身的一些特点当作所有数据具有的一般性质导致过拟合。
决策树剪枝的基本策略有“预剪枝（prepruning）”和“后剪枝（post-pruning）”，预剪枝指决策树生成过程中，对每个结点进行估计，若结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上的对非叶子节点进行考察，若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。
在这里插入图片描述