【温大机器学习笔记】-⑦决策树算法

决策树原理

【Decision Tree】决策树总体来说是一个树形结构,十分常见的监督学习分类算法。

结构

在这里插入图片描述
是一种自上而下的贪心算法,每一步选择都采取当前状态最好、最优的选择

优缺点

优点:
⚫ 推理过程容易理解,计算简单,可解释性强。
⚫ 比较适合处理有缺失属性的样本。
⚫ 可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。
缺点:
⚫ 容易造成过拟合,需要采用剪枝操作。
⚫ 忽略了数据之间的相关性。
⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特征。

三种基本类型

ID3(Iterative Dichotomiser)、C4.5、CART(Classification And Regression Tree)
在这里插入图片描述

ID3算法

⚫ ID3 算法最早是由罗斯昆(J. Ross Quinlan)于1975年提出的一种决策树构建算法,算法的核心是“信息熵”,期望信息越小,信息熵越大,样本纯度越低。【插个嘴!】这里怎么理解样本纯度???【传送门

⚫ ID3 算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据的归纳分类。

⚫ ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。

计算步骤

在这里插入图片描述

例子

在这里插入图片描述

信息熵
在这里插入图片描述
K K K 是类别, D D D是数据集, C k C_k Ck是类别下的数据集

在这里插入图片描述
在这里插入图片描述
H ( D ) = 0.971 H(D)=0.971 H(D)=0.971
在这里插入图片描述
条件熵
在这里插入图片描述

信息增益

在这里插入图片描述
缺点
ID3 没有剪枝策略,容易过拟合;
信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
只能用于处理离散分布的特征;
没有考虑缺失值。

C4.5算法

C4.5 是对Ross对ID3算法的改进
⚫ 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,而C4.5用的是信息增益率。
⚫ 在决策树构造过程中进行剪枝。
⚫ 对非离散数据也能处理。
⚫ 能够对不完整数据进行处理。

在这里插入图片描述
过拟合的原因:为了尽可能正确分类训练样本,节点的划分过程会不断重复不能再分,这也就导致在训练样本学习得太好,导致过拟合!
处理办法:通过剪枝来降低过拟合风险
通常:预剪枝(prepruning)和后剪枝(post-pruning)
预剪枝(prepruning):
预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间,但另一方面它是基于“贪心”策略,会带来欠拟合风险。
例子:
在这里插入图片描述
剪枝策略
在节点划分前来确定是否继续增长,及早停止增长
主要方法有:
• 节点内数据样本低于某一阈值;
• 所有节点特征都已分裂;
• 节点划分前准确率比划分后准确率高。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
剪枝方法
在已经生成的决策树上进行剪枝,从而得到简化版的
剪枝决策树。
C4.5 采用的悲观剪枝方法,用递归的方式从低往上针
对每一个非叶子节点,评估用一个最佳叶子节点去代
替这课子树是否有益。如果剪枝后与剪枝前相比其错
误率是保持或者下降,则这棵子树就可以被替换掉。
C4.5 通过训练数据集上的错误分类数量来估算未知样
本上的错误率。
后剪枝决策树的欠拟合风险很小,泛化性能往往优于
预剪枝决策树。

CART算法

【Classification and Regression Tree】
⚫ 用基尼指数来选择属性(分类),或用均方差来选择属性(回归)。
⚫ 顾名思义,CART算法既可以用于创建分类树,也可以用于创建回归
树,两者在构建的过程中稍有差异。
⚫ 如果目标变量是离散的,称为分类树。
⚫ 如果目标变量是连续的,称为回归树。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

决策树差异总结

• 划分标准的差异:ID3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益
率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服
C4.5 需要求 log 的巨大计算量,偏向于特征值较多的特征。
• 使用场景的差异:ID3 和 C4.5 都只能用于分类问题,CART 可以用于分类和回
归问题;ID3 和 C4.5 是多叉树,速度较慢,CART 是二叉树,计算速度很快;
• 样本数据的差异:ID3 只能处理离散数据且缺失值敏感,C4.5 和 CART 可以处
理连续性数据且有多种方式处理缺失值;从样本量考虑的话,小样本建议 C4.5
、大样本建议 CART。C4.5 处理过程中需对数据集进行多次扫描排序,处理成
本耗时较高,而 CART 本身是一种大样本的统计方法,小样本处理下泛化误差
较大 ;
• 样本特征的差异:ID3 和 C4.5 层级之间只使用一次特征,CART 可多次重复使
用特征;
• 剪枝策略的差异:ID3 没有剪枝策略,C4.5 是通过悲观剪枝策略来修正树的准
确性,而 CART 是通过代价复杂度剪枝。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值