决策树构造过程

最新推荐文章于 2022-12-23 20:21:33 发布

加加大了

最新推荐文章于 2022-12-23 20:21:33 发布

阅读量4.5k

点赞数

分类专栏：机器学习文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/qq_33700236/article/details/106162175

版权

本文详细介绍了决策树的基本概念，包括其结构、节点参数和不纯度函数。不纯度函数是决策树节点分割的重要依据，常见的不纯度函数有信息熵和基尼指数。此外，还讨论了回归树的构建，其不纯度函数采用方差。决策树的构建通常采用深度优先或广度优先策略，并设有控制条件来避免过拟合。最后，文章探讨了决策树的一些特性，如不需要数据归一化、选择不纯度函数的影响以及为何选择二叉树结构。

摘要由CSDN通过智能技术生成

决策树构造过程

决策树的基本概念

我们这里介绍一下一个比较简单的机器学习系统----决策树. 它的概念最容易理解, 因为人类的许多决策实际上就是一个决策树.
通常使用的分类回归树（class and regress tree）是一个二叉树。它的形式一般为：
在这里插入图片描述
每个方框代表一个节点. 每个非叶子节点有2个分支, 一个是判定True, 一个判定False. 分别走两个不同的分支. 叶子节点具有决策权. 任何一个输入从root出发, 总是会达到且唯一到达一个叶子节点. 这就是决策树的工作原理。
决策树有两种节点：中间节点和叶子节点。
1.每个中间节点有4个参数：
a) 判定函数。是一个特征的取值。当特征小于等于这个值得时候决策路径走左边，当特征大于这个值得时候决策树走右边。
b) 不纯度值(impurity value). 是当前节点的不纯度值. 关于不纯度值得意义后面会讲到. 他反应了当前节点的预测能力.
c) 覆盖样本个数(n_samples). 是指参与此节点决策的样本个数. 父亲节点§和两个孩子节点(l,r)的样本个数的关系为: n_samples§ = n_samples(l) + n_samples® 覆盖样本个数越多, 说明判定函数越稳定. 实际上很容易看出来, 所有的叶子节点所对应的样本是总样本的一个划分.
d) 节点取值(node value). 节点取值是一个数组. 数组的长度为类目个数. value = [997, 1154] 表示在2151个样本数中, 有997个属于class1, 1154属于class2. (这是分类树的意义, 会归数的取值规则后面会讲.)
2.每个叶子节点有3个参数. 除了没有决策函数之外, 其他参数意义一样.

不纯度函数(impurity function)

决策树最重要的概念就是不纯函数(I)的概念. 当一个节点需要分割的时候, 实际上就是找到一个合适的特征的一个合适的取值作为阈值(thresh)进行分割. 那么问题来了, 怎么找到那个合适的特征的合适的取值呢? 主要的依据就是不纯度的变化(delta I). 首先我们给出不纯度函数的定义. 不纯度函数不是一个具体的函数, 它是满足一系列约束的函数的总称.
根据输出实例的取值范围不同. 决策树有不同的种类. 如果输出实例是离散的, 那么决策树是一个分类树; 如果输出实例是连续的, 那么决策树是一个回归树.如果决策树是分类树. 那么输出空间定义为输出实例所有取值的集合. 这个集合是有限集合. 不失一般性, 使用{1,…,k}这可个取值. 不纯度函数(I)的定义为:
在这里插入图片描述
每一项其实就是属于类目c_i的概率, 记为p_i.
如上公式可以看出不纯度函数的定义域是长度为k的向量, 向量每个数的取值为0~1, 且加和为1. 第i个数是特征矩阵中属于类别i的特征向量个数在整个样本个数(n_sample)的占比.且必须满足如下约束

最低0.47元/天解锁文章

加加大了

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
决策树构造过程

决策树构造过程决策树的基本概念我们这里介绍一下一个比较简单的机器学习系统----决策树. 它的概念最容易理解, 因为人类的许多决策实际上就是一个决策树.通常使用的分类回归树（class and regress tree）是一个二叉树。它的形式一般为：每个方框代表一个节点. 每个非叶子节点有2个分支, 一个是判定True, 一个判定False. 分别走两个不同的分支. 叶子节点具有决策权. 任何一个输入从root出发, 总是会达到且唯一到达一个叶子节点. 这就是决策树的工作原理。决策树有两种节点：
复制链接

扫一扫

专栏目录