决策树总结

本文介绍了决策树的生成过程,包括节点分裂和阈值确定。ID3算法利用信息增益选择划分特征,易受多值属性影响。C4.5通过信息增益率修正这一问题,处理连续属性和缺失值,并在构建过程中剪枝。CART算法用于构建分类与回归树,处理连续属性时采用中位数分割,同样支持剪枝。三种算法各有优缺点,适用于不同的数据集和场景。
摘要由CSDN通过智能技术生成

 决策树的生成主要分两步,节点的分裂和阈值的确定。

ID3

 由增熵来决定哪个节点需要分裂,选择信息增益最大的特征作为节点的划分特征。当熵为 1 的时候,是分类效果最差的状态,当它最小为 0 的时候,是完全分类的状态,熵的不断最小化,实际上就是提高分类正确率的过程。
 熵、条件熵和信息增益定义如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;没有剪枝,可能会产生过度匹配问题,需要进行剪枝;采用信息增益作为选择最优划分特征的标准,然而信息增益会偏向那些取值较多的特征。

C4.5

 与 ID3 比,采用信息增益率来选择划分特征,消除属性可选数目的影响;将连续型的属性进行离散化处理;能够处理具有缺失属性值的训练数据;在构造树的过程中进行剪枝。
 属性A的可能取值数越多(即K越大),则IV(A)的值通常会越大,信息增益率可以减少对可选数目多的属性的偏好。C4.5 先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择信息增益率最高的。
在这里插入图片描述
 对于连续属性,取相邻两样本值的平均数做划分点,分别计算以这些点作为二元切分点时的信息增益率。
 对缺失值的处理:1)根据缺失比例折算信息增益率;2) 将样本以其他非缺失属性的比例同时划分到不同节点中。 对新的样本进行分类时,计算经过所有分支得到的每个类别的概率,取概率最大的类别赋值给该样本。
 前剪枝:节点内数据样本数小于切分最小样本数阈值,所有特征都已分裂,或节点划分前准确率比划分后准确率高时,提前停止增长。后剪枝:C4.5 采用悲观剪枝方法,根据剪枝前后的误判率来判定是否进行子树的修剪。

决策树算法–C4.5算法

CART


XGBoost

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值