就是经济学上的基尼系数的那个概念
以下部分内容引自百度百科
基尼系数(英文:Gini index、Gini Coefficient)是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。
基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均,0.2-0.3视为收入比较平均;0.3-0.4视为收入相对合理;0.4-0.5视为收入差距较大,当基尼系数达到0.5以上时,则表示收入悬殊。
基尼指数最早由意大利统计与社会学家Corrado Gini在1912年提出。
经济学上的表达
观察公式,其实基尼系数就是一个概率
现在我们把它联系到决策树中
决策树中的表达:
G
i
n
i
−
i
n
d
e
x
=
1
−
(
p
y
e
s
)
2
−
(
p
n
o
)
2
Gini_-index = 1 - (p_{yes})^2 - (p_{no})^2
Gini−index=1−(pyes)2−(pno)2
p
i
2
=
(
p
y
e
s
)
2
−
(
p
n
o
)
2
pi^2 = (p_{yes})^2 - (p_{no})^2
pi2=(pyes)2−(pno)2
为什么用平方而不是绝对值(首先分段函数无法求导,其次,分类讨论无形中增加了计算机的计算负担)
D表示所有样本, pi表示每种类别出现的概率, 最极端的情况p = 1 则Gini = 0 , 不纯度(Impure)最低,最稳定。
类似的, Gini增益:
分类
根据不同的指标对应不同的权重
现在,我们回想一下当初那个炒股的例子
主题:是否是一只适合长期投资股票?
1,是否体量大(市值高?)
2,是否具有发展潜力(新兴产业,股东的组成)?
3,是否长期趋势向好?
然后最终结论:适合or不适合
现在假定体量的权重为0.5
发展潜力的权重为0.4
长期趋势权重为0.2
这些权重都是根据调差样本里面得出的,比如体量大的里面有多少适合长期投资,然后搞成百分比,算出对应的基尼系数
比较上述权重得出长期趋势的权重最小(最纯),越纯说明分类越准确(注意,基尼系数是1-P所以对权重是反着来)
对 Gini index 进行加权处理*
w即weight(权重)
G i n i − i n d e x = 1 − ( ( p y e s ) 2 − ( p n o ) 2 ) ∗ w Gini_-index = 1 - ((p_{yes})^2 - (p_{no})^2)* w Gini−index=1−((pyes)2−(pno)2)∗w