CART（分类回归树）分类算法原理

最新推荐文章于 2024-07-02 14:27:14 发布

Subin_

最新推荐文章于 2024-07-02 14:27:14 发布

阅读量3k

点赞数 2

分类专栏：决策树文章标签：算法决策树 CART 分类基尼

本文链接：https://blog.csdn.net/Subin_/article/details/99681866

版权

本文介绍了CART（分类回归树）算法的核心原理，重点讲解了如何利用基尼指数选择最优特征进行数据划分。通过一个实例展示了如何计算不同特征的基尼指数，并选择最小基尼指数的属性作为节点分类依据。最后，探讨了剪枝策略，以防止过拟合，提高决策树的泛化能力。

摘要由CSDN通过智能技术生成

目的

生成一颗决策树，输入X（各种特征条件）输出Y（该样本分类结果）。

一、分类树选择特征的依赖——基尼指数

基尼指数——总体内包含的类别越杂乱，基尼指数就越大

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。

基尼不纯度 = $\sum_{i=1}^K($ 样本 $i$ 被选中的概率 $*$ 它被分错的概率)

（当一个节点中所有样本都是一个类时，基尼不纯度为零。）

假设y的可能取值有K个,令 $p_k$ 是样本取值为k的概率，
则基尼指数可以通过如下公式计算：

$Gini(p)=\sum_{i=1}^Kp_i(1-p_i)=1-\sum_{i=1}^K{p_i}^2$
在选择根节点属性时，计算每一种属性分类后的基尼指数 $G i n i$ ，选择 $G i n i$ 最小的那种属性作为该节点的分类依据。

二、例子

头发	身高	体重	性别
长	中	60	女
短	高	65	男
长	高	70	男
短	矮	55	女
短	中	50	男

要对上表的数据构建一颗决策树，它的特征集合A={头发、身高、体重}

1.当选择{头发}分类时，对应的样本数如下表：

	长	短
男	1	2
女	1	1
Total	2	3

$G_长=1-（\frac{1}{2}）{^2} - （\frac{1}{2}）{^2} = 0.5$
$G_短={1-}（\frac{1}{3}）{^2} - （\frac{2}{3}）{^2} = 0.444$
$G_{\{头发\}} = \frac{2}{5}*G_长 + \frac{3}{5}*G_短= 0.466$

（两种值的加权值为该属性的基尼系数）

2.当选择{身高}分类时，有三种值，对应三种分法，

（1）按照中和非中分类如下表：

	中	非中
男	1	2
女	1	1
Total	2	3

$G_中={1-}（\frac{1}{2}）{^2} - （\frac{1}{2}）{^2} = 0.5$

最低0.47元/天解锁文章

Subin_

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
CART（分类回归树）分类算法原理

CART（分类回归树）分类算法原理目的生成一颗决策树，输入X（各种特征条件）输出Y（该样本分类结果）。一、分类树选择特征的依赖——基尼指数基尼指数——总体内包含的类别越杂乱，基尼指数就越大在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度 = ∑i=1K(\sum_{i=1}^K(∑i=1K(样本iii被选中的概率 ∗*∗ 它被分错的概率)...
复制链接

扫一扫

专栏目录