信息熵与基尼指数的关系(一阶泰勒展开)

1、信息熵:

        信息熵可以度量信息量,也可以表达不确定程度,混乱程度。在机器学习中,还可以度量样本集合的纯度(熵越小集合纯度越高)。信息熵的定义为:

                                         (1)

       其中,D表示集合,K表示类别数,Pk表示第k类别样本的比例。集合中每一类样本的比例越接近,表示集合纯度越低,越混乱,即熵的值越大。集合中类别越单一,表示纯度越高,熵的值越小。

       令:

                          (2)

       对上式在p=1处做一阶泰勒展开,得到:

      (3)

       即用﹣logP来近似1-P,且P处于[0,1],从图上来直观理解一下:

       代入信息熵的公式可得:

                           (4)

2、基尼指数:

        数据集D的纯度也可以用基尼指数来度量,基尼指数反映数据集D中随机抽取两个样本,其类别标记不一致的概率,不一致的概率越小集合就越纯。公式:

  (5)

         由于Pk概率之和为1,所以(4)式刚好等于(5)式。也就是说:基尼指数是信息熵中﹣logP在P=1处一阶泰勒展开后的结果!所以两者都可以用来度量数据集的纯度,用于描述决策树节点的纯度!

  • 11
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值