为什么在计算信息熵的时候要用log?

熵在信息论中的定义如下:   

如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为   

Ie = − log2pi   (对数以2为底,单位是位元(bit))   

Ie = − lnpi   (对数以e为底,单位是纳特/nats)  

 如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为   

I_e = -\log_2 {1\over 26} = 4.7   ;

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为   

I_e = -\log_2 {1\over 2500} = 11.3   

整个系统的平均消息量为   

H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i   

这个平均消息量就是消息熵。

因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值