CART生成算法

最新推荐文章于 2020-04-06 11:45:53 发布

FeynmanWang

最新推荐文章于 2020-04-06 11:45:53 发布

阅读量738

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FeynmanWang/article/details/47067225

版权

学习笔记专栏收录该内容

24 篇文章 1 订阅

订阅专栏

算法：

$\qquad$ 输入：训练数据集 $D$ ，停止计算的条件；
$\qquad$ 输出：CART 决策树。
$\qquad$ 根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构造二叉决策树：
$\qquad$ (1) 设结点的训练数据集为 $D$ ，计算现有特征对该数据集的基尼指数。此时，对每一个特征 $A$ ，对其可能取得每个值 $a$ ，根据样本点对 $A=a$ 的测试为“是”或“否”将 $D$ 分割成 $D_1$ 和 $D_2$ 两部分，计算 $A=a$ 时的基尼指数。
$\qquad$ (2) 在所有可能的特征 $A$ 以及他们所有可能的切分点 $a$ 中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去。
$\qquad$ (3) 对两个子结点递归地调用(1),(2)，直至满足停止条件。
$\qquad$ (4) 生成 CART 决策树。

一些说明：

基尼指数：

$\qquad$ 样本集合 $D$ 的基尼指数

Gini (D) = 1 - \sum k = 1 K (| C k | | D |) 2

$\text {Gini}(D)=1-\sum_{k=1}^K\left(\frac{|C_k|}{|D|}\right)^2$

$\qquad$ 特征

A $A$ 条件下集合

D $D$ 的基尼指数：

Gini (D, A) = | D 1 | | D | Gini (D 1) + | D 2 | | D | Gini (D 2)

$\text {Gini}(D,A)=\frac{|D_1|}{|D|}\text{Gini}(D_1)+\frac{|D_2|}{|D|}\text{Gini}(D_2)$

算法停止条件：

结点中的样本个数小于预订阈值
样本集的基尼指数小于预定阈值
没有更多特征

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
CART生成算法

算法：\qquad 输入：训练数据集 DD，停止计算的条件； \qquad 输出：CART 决策树。 \qquad 根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构造二叉决策树： \qquad (1) 设结点的训练数据集为 DD，计算现有特征对该数据集的基尼指数。此时，对每一个特征 AA，对其可能取得每个值 aa，根据样本点对 A=aA=a 的测试为“是”或“否”将 DD 分割成
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。