基尼指数
定义
- 是一种不等性度量;
- 通常用来度量收入不平衡,可以用来度量任何不均匀分布;
- 是介于0~1之间的数,0-完全相等,1-完全不相等;
- 总体内包含的类别越杂乱,基尼指数就越大
基尼不纯度指标
在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。
假设y的可能取值为{1, 2, …, m},令
fi
f
i
是样本被赋予i的概率,则基尼指数可以通过如下计算:
Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2k
G
i
n
i
(
p
)
=
∑
k
=
1
K
p
k
(
1
−
p
k
)
=
1
−
∑
k
=
1
K
p
k
2
cart分类书中的基尼指数
如果训练数据集D根据特征A是否取某一可能值a被分割为
D1
D
1
和
D2
D
2
两部分,则在特征A的条件下,集合D的基尼指数定义为
Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)
G
i
n
i
(
D
,
A
)
=
|
D
1
|
|
D
|
G
i
n
i
(
D
1
)
+
|
D
2
|
|
D
|
G
i
n
i
(
D
2
)
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。基尼指数越大,样本的不确定性也就越大。
熵VS基尼指数
随机变量的熵表达形式
H(X)=∑Nn=1Pi∗logPi
H
(
X
)
=
∑
n
=
1
N
P
i
∗
l
o
g
P
i
随机变量的基尼系数表达形式
Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2k
G
i
n
i
(
p
)
=
∑
k
=
1
K
p
k
(
1
−
p
k
)
=
1
−
∑
k
=
1
K
p
k
2
主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些。