CART生成算法

算法:

输入:训练数据集 D ,停止计算的条件;
输出:CART 决策树。
根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构造二叉决策树:
(1) 设结点的训练数据集为 D ,计算现有特征对该数据集的基尼指数。此时,对每一个特征 A,对其可能取得每个值 a ,根据样本点对 A=a 的测试为“是”或“否”将 D 分割成 D1 D2 两部分,计算 A=a 时的基尼指数。
(2) 在所有可能的特征 A 以及他们所有可能的切分点 a 中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去。
(3) 对两个子结点递归地调用(1),(2),直至满足停止条件。
(4) 生成 CART 决策树。

一些说明:

基尼指数:

样本集合 D 的基尼指数

Gini(D)=1k=1K(|Ck||D|)2

特征 A 条件下集合 D 的基尼指数:

Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)

算法停止条件:

  1. 结点中的样本个数小于预订阈值
  2. 样本集的基尼指数小于预定阈值
  3. 没有更多特征
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值