CART(分类回归树)分类算法原理

目的

生成一颗决策树,输入X(各种特征条件)输出Y(该样本分类结果)。

一、分类树选择特征的依赖——基尼指数

  • 基尼指数——总体内包含的类别越杂乱,基尼指数就越大

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。

基尼不纯度 = ∑ i = 1 K ( \sum_{i=1}^K( i=1K(样本 i i i被选中的概率 ∗ * 它被分错的概率)

(当一个节点中所有样本都是一个类时,基尼不纯度为零。)

假设y的可能取值有K个,令 p k p_k pk是样本取值为k的概率,
则基尼指数可以通过如下公式计算:

G i n i ( p ) = ∑ i = 1 K p i ( 1 − p i ) = 1 − ∑ i = 1 K p i 2 Gini(p)=\sum_{i=1}^Kp_i(1-p_i)=1-\sum_{i=1}^K{p_i}^2 Gini(p)=i=1Kpi(1pi)=1i=1Kpi2
在选择根节点属性时,计算每一种属性分类后的基尼指数 G i n i Gini Gini,选择 G i n i Gini Gini最小的那种属性作为该节点的分类依据。

二、例子

头发 身高 体重 性别
60
65
70
55
50

要对上表的数据构建一颗决策树,它的特征集合A={头发、身高、体重}

1.当选择{头发}分类时,对应的样本数如下表:

1 2
1 1
Total 2 3

G 长 = 1 − ( 1 2 ) 2 − ( 1 2 ) 2 = 0.5 G_长=1-(\frac{1}{2}){^2} - (\frac{1}{2}){^2} = 0.5 G=1212212=0.5
G 短 = 1 − ( 1 3 ) 2 − ( 2 3 ) 2 = 0.444 G_短={1-}(\frac{1}{3}){^2} - (\frac{2}{3}){^2} = 0.444 G=1312322=0.444
G { 头 发 } = 2 5 ∗ G 长 + 3 5 ∗ G 短 = 0.466 G_{\{头发\}} = \frac{2}{5}*G_长 + \frac{3}{5}*G_短= 0.466 G{ }=52G+53G=0.466

(两种值的加权值为该属性的基尼系数)


2.当选择{身高}分类时,有三种值,对应三种分法,

(1)按照中和非中分类如下表:
非中
1 2
1 1
Total 2 3

G 中 = 1 − ( 1 2 ) 2 − ( 1 2 ) 2 = 0.5 G_中={1-}(\frac{1}{2}){^2} - (\frac{1}{2}){^2} = 0.5 G=1212212=

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值