CART算法中的基尼指数(转载)

基尼指数

定义

  • 是一种不等性度量;
  • 通常用来度量收入不平衡,可以用来度量任何不均匀分布;
  • 是介于0~1之间的数,0-完全相等,1-完全不相等;
  • 总体内包含的类别越杂乱,基尼指数就越大

基尼不纯度指标

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。
假设y的可能取值为{1, 2, …, m},令 fi f i 是样本被赋予i的概率,则基尼指数可以通过如下计算:
Gini(p)=Kk=1pk(1pk)=1Kk=1p2k G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2

cart分类书中的基尼指数

如果训练数据集D根据特征A是否取某一可能值a被分割为 D1 D 1 D2 D 2 两部分,则在特征A的条件下,集合D的基尼指数定义为
Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2) G i n i ( D , A ) = | D 1 | | D | G i n i ( D 1 ) + | D 2 | | D | G i n i ( D 2 )
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。基尼指数越大,样本的不确定性也就越大。

熵VS基尼指数

随机变量的熵表达形式
H(X)=Nn=1PilogPi H ( X ) = ∑ n = 1 N P i ∗ l o g P i
随机变量的基尼系数表达形式
Gini(p)=Kk=1pk(1pk)=1Kk=1p2k G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2
主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值