《机器学习:算法原理和编程实践》3:决策树的发展

1、决策树的算法框架

决策树的主函数


计算最优特征子函数:ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。

信息熵:用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。在决策树中,它不仅能用来度量类别的不确定性,也可以用来度量包含不同特征的数据样本与类别的不确定性。

CART算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。



      在回归树中,数据集均为连续性的。连续数据的处理方法与离散数据不同,离散数据是按每个特征的取值来划分,而连续特征则要计算出最优划分点。但在连续数据集上计算线性相关度非常简单,算法思想来源于最小二乘法。

剪枝策略:因为使用连续性数据,CART可以生长出大量的分支树,为了避免过拟合的问题,预测树采用了剪枝的方法。主流的剪枝方法有两类:先剪枝和后剪枝。先剪枝给出一个预定义的划分阈值,当节点的划分子集某个标准低于预定义的阈值时,子集划分将终止。后剪枝在完全生成的决策树上,根据一定的规则标准,剪掉树中不具备一般代表性的子树,使用叶子节点取而代之,进而形成一颗规模较小的新树。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值