ID3,C4.5,CART 决策树算法学习

ID3算法

使用信息增益作为属性的选择标准,适用于离散的描述属性,且偏好于可取数目较多的属性。

信息熵计算


其中,pk代表第k类样本在D集合中所占的比重信息熵越小,表示集合D的纯度越大。

信息增益计算

其中为集合D中某个属性的子集。根据所计算的信息增益,选取信息增益大的属性。


C4.5算法

在ID3算法的基础上,使用信息增益率作为属性的选择标准。该算法既能处理离散的描述属性,也能处理连续的描述属性,并且偏好于可取数目较少的属性。

信息增益率Gainratio计算


根据所计算的信息增益率,选取信息增益率高的属性。


CART算法

通过基尼系数划分属性,可用于回归树或分类树。当终结点为连续变量时,该树为回归树;当终结点为分类变量时,该树为分类树。

基尼系数Giniindex计算



根据所计算的基尼系数,选取基尼系数最小的属性。


决策树算法的优缺点

优点
  1. 只需很少的数据准备;
  2. 使用该树预测数据的成本为训练树的数据点的对数;
  3. 能够处理数字和分类数据,其他分类技术通常专门分析一种类型变量的数据;
  4. 能够处理多输出问题;
  5. 使用白盒模型,容易通过布尔逻辑对决策树的结果进行解释;
  6. 模型具有可靠性,可使用统计测试来验证模型;
  7. 即使假设受到数据生成的真实模型的干扰,也能很好地执行。
缺点
  1. 容易过度拟合,可建立过于复杂的树,但不能很好地概括数据。可通过设置叶节点所需的最小样本树或树的最大深度避免;
  2. 不稳定性,数据中的小变化,将导致生成不同的树;
  3. 基于启发式算法,不能保证返回全局最优,可通过训练多棵树缓解,其中的特征和样本随机替换采样;
  4. 若某一类占主导地位,则会建成偏向性树,需要先平衡数据集。


参考文献

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值