决策树(Classification and Regression Trees, CART)part3分类准确程度的衡量-基尼系数(Gini index/Gini Impurity)/信息熵与分类

就是经济学上的基尼系数的那个概念

以下部分内容引自百度百科
基尼系数(英文:Gini index、Gini Coefficient)是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。
基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均,0.2-0.3视为收入比较平均;0.3-0.4视为收入相对合理;0.4-0.5视为收入差距较大,当基尼系数达到0.5以上时,则表示收入悬殊。
基尼指数最早由意大利统计与社会学家Corrado Gini在1912年提出。

在这里插入图片描述
经济学上的表达
在这里插入图片描述

观察公式,其实基尼系数就是一个概率

在这里插入图片描述

现在我们把它联系到决策树中
决策树中的表达:
G i n i − i n d e x = 1 − ( p y e s ) 2 − ( p n o ) 2 Gini_-index = 1 - (p_{yes})^2 - (p_{no})^2 Giniindex=1(pyes)2(pno)2
p i 2 = ( p y e s ) 2 − ( p n o ) 2 pi^2 = (p_{yes})^2 - (p_{no})^2 pi2=(pyes)2(pno)2
为什么用平方而不是绝对值(首先分段函数无法求导,其次,分类讨论无形中增加了计算机的计算负担)
在这里插入图片描述
D表示所有样本, pi表示每种类别出现的概率, 最极端的情况p = 1 则Gini = 0 , 不纯度(Impure)最低,最稳定。
类似的, Gini增益:
在这里插入图片描述

分类

根据不同的指标对应不同的权重
现在,我们回想一下当初那个炒股的例子

主题:是否是一只适合长期投资股票?
1,是否体量大(市值高?)
2,是否具有发展潜力(新兴产业,股东的组成)?
3,是否长期趋势向好?
然后最终结论:适合or不适合

现在假定体量的权重为0.5
发展潜力的权重为0.4
长期趋势权重为0.2

这些权重都是根据调差样本里面得出的,比如体量大的里面有多少适合长期投资,然后搞成百分比,算出对应的基尼系数

比较上述权重得出长期趋势的权重最小(最纯),越纯说明分类越准确(注意,基尼系数是1-P所以对权重是反着来)

对 Gini index 进行加权处理*
w即weight(权重)

G i n i − i n d e x = 1 − ( ( p y e s ) 2 − ( p n o ) 2 ) ∗ w Gini_-index = 1 - ((p_{yes})^2 - (p_{no})^2)* w Giniindex=1((pyes)2(pno)2)w

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值