信息熵的计算公式_信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

点击上方“机器学习与统计学”,选择“置顶”公众号

重磅干货,第一时间送达91445eb441075e7b032cae3ed8121457.png

c5314b547bdfadfcb236edf2536a48cf.png

信息熵、联合熵、条件熵、互信息的关系

1、信息量

信息量是通过概率来定义的:如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,因此信息量可以定义如下:

5d6de3c5-a035-eb11-8da9-e4434bdf6706.svg

下面解释为什么要取倒数再去对数。

(1)先取倒数: 5e6de3c5-a035-eb11-8da9-e4434bdf6706.svg 这件事表示:“信息量”和“概率”呈反比;

(2)在取对数:606de3c5-a035-eb11-8da9-e4434bdf6706.svg 取对数是为了将区间 626de3c5-a035-eb11-8da9-e4434bdf6706.svg 映射到 636de3c5-a035-eb11-8da9-e4434bdf6706.svg

再总结一下:

646de3c5-a035-eb11-8da9-e4434bdf6706.svg

2、信息熵

信息熵是信息量的数学期望。理解了信息量,信息熵的定义式便不难理解。定义如下:

656de3c5-a035-eb11-8da9-e4434bdf6706.svg

  • 熵越小表示越“纯”,决策树算法在进行特征选择时的其中标准之一就是选择使得通过该特征分类以后的类的熵最小;

  • 上面是熵越小越好,而有的时候,我们需要熵越大越好,简单来说就是“鸡蛋不要放在一个篮子里”(见吴军《数学之美》),最大熵原理就是这样,这部分内容可以参考李航《统计机器学习》逻辑回归模型相关部分。

3、条件熵

条件熵的定义为:在 666de3c5-a035-eb11-8da9-e4434bdf6706.svg 给定的条件下,

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值