决策树知识

最新推荐文章于 2023-10-12 20:28:41 发布

略略略06

最新推荐文章于 2023-10-12 20:28:41 发布

阅读量365

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44916258/article/details/117061876

版权

目录

1衡量样本集合纯度的几种指标

1.2信息增益

1.3信息增益率

1.4基尼指数

2构建决策树的三种常用算法

2.1 ID3.0算法

3.2预剪枝（自顶向下）

3.3后剪枝（自底向上）

4.1连续值处理

4.2缺失值处理

4.3多变量决策树

1衡量样本集合纯度的几种指标

1.1信息熵

信息熵是信息量的数学期望，是信源发出信息前的先验不确定性，也称为先验熵，信息熵的数学定义为：

1.2信息增益

信息增益 = entroy(前) - entroy(后)

条件熵：

信息增益的定义公式：

1.3信息增益率

信息增益率的定义公式：

1.4基尼指数

基尼指数的定义公式：

直观来说，Gini（p）反映了从数据集中任意取两个样本，其分类表及不一致的概率，因此，Gini（p）越小，则数据集的纯度越高。通常来说，基尼指数越低信息纯度越高，决策树也越好

2构建决策树的三种常用算法

2.1 ID3.0算法

ID3算法(Iterative Dichotomiser 3，迭代二叉树3代)是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。

算法流程如下：

如果节点满足停止分裂条件（所有记录属同一类别 or 最大信息增益小于阈值），将其置为叶子节点；
选择信息增益最大的特征进行分裂；
重复步骤1-2，直至分类完成。

2.2 C4.5算法

ID3.0算法往往偏好取值数目较大的特征，因此为了避免这一不足，在此基础上提出了C4.5算法。C4.5算法和ID3.0算法类似，但是是以信息增益率作为分裂的依据。

算法流程如下：

如果节点满足停止分裂条件（所有记录属同一类别），将其置为叶子节点；
考查已有的特征，挑选其中信息增益率高于平均水平的特征；（避免对取值数目较少的特征的偏好）
选择信息增益率最大的特征进行分裂；
重复步骤1-2，直至分类完成。

2.3 CART算法

CART算法是以基尼系数作为分裂的依据。

算法流程如下：

如果节点满足停止分裂条件（所有记录属同一类别），将其置为叶子节点；
选择基尼指数最小的特征进行分裂；
重复步骤1-2，直至分类完成。

3剪枝算法

3.1过拟合

过拟合是指为了得到一致假设而使假设变得过度严格。在决策树学习中，为了尽可能正确分类训练样本，节点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好”了，以至于把训练集自身的一些特点当做所有数据都具有的一般性质而导致过拟合。

3.2预剪枝（自顶向下）

预剪枝是在构建决策树的过程中，提前终止决策树的生长，从而避免过多的节点产生（如何判断分支前后的泛化能力是否提升，从而判断是否需要分支，这里采用了2.2节的留出法）。

具体做法：

1.将数据划分为训练集和验证集（留出法）

2.在划分每个节点之前进行评估，若当前节点的划分不能提升泛化性能，则停止划分，并将其标记为叶节点；

3.若当前节点的划分能够提升泛化性能（从信息增益 or 其他方式选择最优属性），则继续划分；

4.若划分前>=划分后，则选择不划分。

优缺点：

预剪枝方法虽然简单但实用性不强，因为很难精确的判断何时终止树的生长，可能会带来欠拟合的风险。

3.3后剪枝（自底向上）

后剪枝是先从训练集中生成一颗完整的决策树，然后逐个考察分支节点，比较分支节点前后的验证精度，若精度提升则保留分支，否则就将将分支替换为叶子节点。

具体做法：

1.将数据划分为训练集和验证集

2.生成一颗完整的决策树

3.自底向上考查每一个分支节点，若当前节点的划分不能提升泛化性能，则不划分，并将其标记为叶节点；

3.若当前节点的划分能够提升泛化性能（从信息增益 or 其他方式选择最优属性），则保持划分；

4.若划分前>=划分后，则选择不划分。

优缺点：

时间开销大，但是保留的分支更多，泛化能力更强。

4一些补充

4.1连续值处理

因为连续属性的可取值数目不再有限，因此不能像前面处理离散属性枚举离散属性取值来对结点进行划分。因此需要连续属性离散化，常用的离散化策略是二分法，这个技术也是C4.5中采用的策略。

具体的做法如下：

4.2缺失值处理

在决策树中处理含有缺失值的样本的时候，需要解决两个问题：

1.如何在属性值缺失的情况下进行划分属性的选择？（比如“色泽”这个属性有的样本在该属性上的值是缺失的，那么该如何计算“色泽”的信息增益？）
2.给定划分属性，若样本在该属性上的值是缺失的，那么该如何对这个样本进行划分？（即到底把这个样本划分到哪个结点里？）

下面就来介绍如何解决这两个问题：

4.3多变量决策树

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树知识

目录1衡量样本集合纯度的几种指标1.1信息熵1.2信息增益1.3信息增益率1.4基尼指数2构建决策树的三种常用算法2.1 ID3.0算法2.2 C4.5算法2.3 CART算法3剪枝算法3.1过拟合3.2预剪枝（自顶向下）3.3后剪枝（自底向上）4一些补充4.1连续值处理4.2缺失值处理4.3多变量决策树1衡量样本集合纯度的几种指标1.1信息熵信息熵是信息量的数学期望，是信源发出信息前的先验不确定性，也称为先验熵，信息熵..
复制链接

扫一扫

略略略06 CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

78万+: 周排名

190万+: 总排名

1万+: 访问

: 等级

157: 积分

3: 粉丝

6: 获赞

2: 评论

41: 收藏

私信

关注

热门文章

分类专栏

NeRF论文学习 2篇

最新评论

个人学习记录
CSDN-Ada助手: 恭喜您在博客世界中迈出了第16步！标题“个人学习记录”让我猜测您将与我们分享学习之旅中的点滴成果。我真诚地祝贺您的持续创作，这种坚持和努力值得赞赏。在以学习为主题的博客中，您可以进一步探索一些学习方法和技巧，或者分享一些您认为对个人学习过程有益的资源和工具。您的经验和见解将对那些渴望提升自己的读者产生重要影响。在未来的创作中，或许您可以考虑扩大内容范围，包括探讨学习心得、职业发展或者个人成长等方面的主题。这样一来，读者们将更多地从您的经历中获得启发和指导。再次恭喜您，期待您未来更多的精彩创作！
泛化nerf系列：pixelNeRF 一种基于NeRF的多视角三维重建网络
a1392021: “将该特征与空间坐标（包含x xx和d dd）一起传递到NeRF网络f ff中”，对应于代码的哪里？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。