基尼系数

信息量,信息熵,纯度,参考博文:https://blog.csdn.net/u010916338/article/details/91127242

条件熵,信息增益(互信息)参考博文:https://blog.csdn.net/u010916338/article/details/91432832

信息增益率,参考博文:https://blog.csdn.net/u010916338/article/details/94653402

一,基尼系数定义 

解释:如公式所示,p_k代表的是某个属性A(共有K个类)的第k个分类占样本总体的概率。 那么p_k^2指的就是两次取值都属于第k类的概率。\sum_{k=1}^{K}p_k^2指的是两次取值都属于同一类的概率。1-\sum_{k=1}^{K}p_k^2指的是两次取值不属于同一类的概率。

二,基尼系数意义

                                                                  表一

DayTemperatrueOutlookHumidityWindyPlayGolf?
07-05hotsunnyhighfalseno
07-06hotsunnyhightrueno
07-07hotovercasthighfalseyes
07-09coolrainnormalfalseyes
07-10coolovercastnormaltrueyes
07-12mildsunnyhighfalseno
07-14coolsunnynormalfalseyes
07-15mildrainnormalfalseyes
07-20mildsunnynormaltrueyes
07-21mildovercasthightrueyes
07-22hotovercastnormalfalseyes
07-23mildsunnyhightrueno
07-26coolsunnynormaltrueno
07-30mildsunnyhighfalseyes

                                                                  表二

                Day       Temperatrue               Outlook               Humidity            Windy
07-05  1/14no   1/1hot   4/14yes 2/4sunny      8/14yes   3/8high      7/14  yes   3/7false  8/14yes   6/8
no   2/4no     5/8no     4/7no     2/8
07-06  1/14no   1/1cool  4/14yes  3/4overcast  4/14yes   4/4normal  7/14yes   6/7true  6/14yes  3/6
no    1/4no     0/4no     1/7no    3/6
07-07  1/14yes  1/1mild  6/14yes  4/6rain          2/14yes   2/2    
no    2/6no     0/2
07-09  1/14yes  1/1        
07-10  1/14yes  1/1        
07-12  1/14no   1/1        
07-14  1/14yes  1/1        
07-15  1/14yes  1/1        
07-20  1/14yes  1/1        
07-21  1/14yes  1/1        
07-22  1/14yes  1/1        
07-23  1/14no   1/1        
07-26  1/14no   1/1        
07-30  1/14yes  1/1        

                                                                      表三

                Day TemperatrueOutlookHumidity Windy
基尼系数0.92860.65310.57140.50.4898
信息增益率0.2470.01880.28640.15190.0488
信息增益0.94030.02930.39490.15190.0481

 

(1)以Day作为基准来分析,显然Day是不能作为特征被使用的,决策过程中,他应该排在最后一位。

信息增益把Day列为第一影响因素,显然不合适。

信息增益率一定程度上削弱了Day的影响程度,但是仍然没有将其排到最后。

基尼系数是按照从小到大来筛选的,此时Day已经变成最不重要因素。

 (2)以Outlook,Humidity,Windy作为基准来分析。

信息增益:Day>Outlook>Humidity>Windy>Temperatrue

信息增益率:Outlook>Day>Humidity>Windy>Temperatrue

基尼系数:Windy>Humidity>Outlook>Temperatrue>Day

                                                          表四:排名

                Day TemperatrueOutlookHumidity Windy
基尼系数54321
信息增益率25134
信息增益15234
排名之和814689

总结: 在没加上Day的情况下,Outlook,Humidity,Windy一直都作为主要影响因素排在前几名,不同计算方式名次稍有不同,但整体影响不大。在加上Day的情况下,Day必须排除,只有基尼系数可以做到。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值