决策树:ID3、C4.5、CART决策树生成算法

示例训练数据

以如下数据集为例分别介绍决策树ID3、C4.5、CART的生成算法:
在这里插入图片描述

ID3生成算法

在这里插入图片描述
在这里插入图片描述
例题:利用训练数据集,用ID3算法建立决策树。
在这里插入图片描述
ID3算法只有树的生成,所以该算法生成的树容易产生过拟合。

C4.5生成算法

C4.5与ID3类似,但有一点不同,C4.5在生成的过程中使用了信息增益比来选择特征。
在这里插入图片描述

CART生成算法

CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”。左分支“是”,右分支“否”。

与ID3和C4.5只有决策树的生成不同的是,CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成一棵尽量大的决策树。
(2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

在此文章,只叙述关于决策树生成的算法!

对回归树用平方误差最小化准则;对分类树用基尼指数最小化准则。生成二叉决策树。

1. CART回归树的生成

对于CART回归树的文字性解释如下:
在这里插入图片描述
在这里插入图片描述
算法叙述如下:
在这里插入图片描述

2. CART分类树的生成

分类树用基尼系数选择最有特征,同时也决定该特征的最优二值切分点。因此,首先对基尼系数做如下符号说明:
在这里插入图片描述
算法描述如下:
在这里插入图片描述
特别的,对于基尼指数,有如下结论:
在这里插入图片描述
相应例题如下:
在这里插入图片描述
在这里插入图片描述
对于本问题,按照CART算法生成的决策树与按照ID3算法生成的决策树完全一致。

参考资料:

李航《统计学习方法》

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值