算法:
输入:训练数据集
D
,停止计算的条件;
根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构造二叉决策树:
(1) 设结点的训练数据集为
D
,计算现有特征对该数据集的基尼指数。此时,对每一个特征
(2) 在所有可能的特征
A
以及他们所有可能的切分点
(3) 对两个子结点递归地调用(1),(2),直至满足停止条件。
(4) 生成 CART 决策树。
一些说明:
基尼指数:
样本集合 D 的基尼指数
特征 A 条件下集合
Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)
算法停止条件:
- 结点中的样本个数小于预订阈值
- 样本集的基尼指数小于预定阈值
- 没有更多特征