【温大机器学习笔记】-⑦决策树算法

最新推荐文章于 2023-04-16 11:20:27 发布

Wency(王斯-CUEB)

最新推荐文章于 2023-04-16 11:20:27 发布

阅读量434

点赞数 1

分类专栏：机器学习文章标签：决策树算法机器学习 python

本文链接：https://blog.csdn.net/weixin_43213884/article/details/119514536

版权

机器学习专栏收录该内容

47 篇文章 15 订阅

订阅专栏

决策树原理

【Decision Tree】决策树总体来说是一个树形结构，十分常见的监督学习分类算法。

结构

在这里插入图片描述
是一种自上而下的贪心算法，每一步选择都采取当前状态最好、最优的选择

优缺点

优点：
⚫ 推理过程容易理解，计算简单，可解释性强。
⚫ 比较适合处理有缺失属性的样本。
⚫ 可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。
缺点：
⚫ 容易造成过拟合，需要采用剪枝操作。
⚫ 忽略了数据之间的相关性。
⚫ 对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值的特征。

三种基本类型

ID3(Iterative Dichotomiser)、C4.5、CART(Classification And Regression Tree)
在这里插入图片描述

ID3算法

⚫ ID3 算法最早是由罗斯昆（J. Ross Quinlan）于1975年提出的一种决策树构建算法，算法的核心是“信息熵”，期望信息越小，信息熵越大，样本纯度越低。【插个嘴！】这里怎么理解样本纯度？？？【传送门】

⚫ ID3 算法是以信息论为基础，以信息增益为衡量标准，从而实现对数据的归纳分类。

⚫ ID3 算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。

计算步骤

在这里插入图片描述

例子

在这里插入图片描述

信息熵
在这里插入图片描述
$K$ 是类别， $D$ 是数据集， $C_k$ 是类别下的数据集

在这里插入图片描述

$H (D) = 0.971$

条件熵

信息增益

在这里插入图片描述
缺点
ID3 没有剪枝策略，容易过拟合；
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征；
没有考虑缺失值。

C4.5算法

C4.5 是对Ross对ID3算法的改进
⚫ 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，而C4.5用的是信息增益率。
⚫ 在决策树构造过程中进行剪枝。
⚫ 对非离散数据也能处理。
⚫ 能够对不完整数据进行处理。

在这里插入图片描述
过拟合的原因：为了尽可能正确分类训练样本，节点的划分过程会不断重复不能再分，这也就导致在训练样本学习得太好，导致过拟合！
处理办法：通过剪枝来降低过拟合风险
通常：预剪枝（prepruning）和后剪枝（post-pruning）
预剪枝（prepruning):
预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间，但另一方面它是基于“贪心”策略，会带来欠拟合风险。
例子：
在这里插入图片描述
剪枝策略
在节点划分前来确定是否继续增长，及早停止增长
主要方法有：
• 节点内数据样本低于某一阈值；
• 所有节点特征都已分裂；
• 节点划分前准确率比划分后准确率高。

剪枝方法
在已经生成的决策树上进行剪枝，从而得到简化版的
剪枝决策树。
C4.5 采用的悲观剪枝方法，用递归的方式从低往上针
对每一个非叶子节点，评估用一个最佳叶子节点去代
替这课子树是否有益。如果剪枝后与剪枝前相比其错
误率是保持或者下降，则这棵子树就可以被替换掉。
C4.5 通过训练数据集上的错误分类数量来估算未知样
本上的错误率。
后剪枝决策树的欠拟合风险很小，泛化性能往往优于
预剪枝决策树。

CART算法

【Classification and Regression Tree】
⚫ 用基尼指数来选择属性（分类），或用均方差来选择属性（回归）。
⚫ 顾名思义，CART算法既可以用于创建分类树，也可以用于创建回归
树，两者在构建的过程中稍有差异。
⚫ 如果目标变量是离散的，称为分类树。
⚫ 如果目标变量是连续的，称为回归树。
在这里插入图片描述

决策树差异总结

• 划分标准的差异：ID3 使用信息增益偏向特征值多的特征，C4.5 使用信息增益
率克服信息增益的缺点，偏向于特征值小的特征，CART 使用基尼指数克服
C4.5 需要求 log 的巨大计算量，偏向于特征值较多的特征。
• 使用场景的差异：ID3 和 C4.5 都只能用于分类问题，CART 可以用于分类和回
归问题；ID3 和 C4.5 是多叉树，速度较慢，CART 是二叉树，计算速度很快；
• 样本数据的差异：ID3 只能处理离散数据且缺失值敏感，C4.5 和 CART 可以处
理连续性数据且有多种方式处理缺失值；从样本量考虑的话，小样本建议 C4.5
、大样本建议 CART。C4.5 处理过程中需对数据集进行多次扫描排序，处理成
本耗时较高，而 CART 本身是一种大样本的统计方法，小样本处理下泛化误差
较大；
• 样本特征的差异：ID3 和 C4.5 层级之间只使用一次特征，CART 可多次重复使
用特征；
• 剪枝策略的差异：ID3 没有剪枝策略，C4.5 是通过悲观剪枝策略来修正树的准
确性，而 CART 是通过代价复杂度剪枝。

Wency(王斯-CUEB)

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【温大机器学习笔记】-⑦决策树算法

决策树原理【Decision Tree】决策树总体来说是一个树形结构，十分常见的监督学习分类算法。结构是一种自上而下的贪心算法，每一步选择都采取当前状态最好、最优的选择优缺点优点：⚫ 推理过程容易理解，计算简单，可解释性强。⚫ 比较适合处理有缺失属性的样本。⚫ 可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。缺点：⚫ 容易造成过拟合，需要采用剪枝操作。⚫ 忽略了数据之间的相关性。⚫ 对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值
复制链接

扫一扫