熵(entropy)的理解与最大熵模型

前人栽树,后人乘凉,既然前人已经完成了的工作,我觉得没必要做重复的工作,“拿来主义”对于我个人的入门和学习是必要的。在此谢谢他们。内容来自:https://blog.csdn.net/u012111465/article/details/77652285,如果有侵权,联系我删除。

1. 公式及其含义

熵的公式:
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=i=1np(xi)logp(xi)
log的原因是,一条信息的可能性数量随着位数的增加是指数的。用二进制bit表示,1bit有2个状态,2bit有4个状态,Nbit有2^N个可能状态。可能性的数量随指数上升,指数那么变回线性的形式就是log咯~至于对数的底是e还是2无所谓,只是一个比例因子而已。一条信息是log,N条信息就是Nlog咯。最后,熵表示混乱度,考虑到符合物理意义理解的话,加上负号。最后就是形如 H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=i=1np(xi)logp(xi)Michael Ding说:最后这句话,“熵表示混乱度”, 这句话是从物理熵(热力学熵)的角度来理解的吧,从信息熵角度来理解是信息的丰富程度我觉得好有道理……

熵的含义:
样本集合不纯度,熵越小,集合不纯度越低;
知识的不确定性,熵越小,不确定性越小;
系统的复杂度,熵越大,系统越复杂。(系统越复杂,出现不同情况越多,信息量越大,熵越大。)

2. 信息量

信息量是对信息的度量,就好比米是对距离的度量。信息量到底多大,跟发生的事件有关,具体说跟事件发生的概率有关。举两个例子说一下:

  1. 刷微博,发现新闻哪位明星出轨了,关键这位明星是给大家的印象很好。于是,我告诉朋友,谁谁出轨了,朋友惊讶地说:“呀,怎么可能啊!”(这是一事件,发生概率小,但是给我们带来了很大的信息,即信息量却很大。也就是说,越不可能发生的事件发生了,则由其带来的信息量就越大。)
  2. 一朋友谈了朋友,几年后跟我说他们要结婚了,我说:“恭喜啊!修成正果。”(这一事件相对于上一事件来说,信息量不是那么大,原因是,他们结婚或者没在一起了都是意料之中的事情。也就是说,越能意识到的事情发生了(大概率事件发生了),则由其带来的信息量越小。)

事件发生的概率与信息量之间关系图:
在这里插入图片描述
后面的式子会有具体的关系,这条线是与x轴相交于(1,0)点的。

3. 由信息量想到的

假设有两个不相关的事件X、Y,x、y分别为这两个事件的取值。
这两个事件的联合信息:h(x,y) = h(x) + h(y)
这两个事件的联合概率:p(x,y) = p(x)p(y)
上面列的两个式子是有原因的,还是那句话,信息量到底多大,跟发生的事件有关,具体说跟事件发生的概率有关。
因此,h(x)跟p(x)有关,再根据上面的两个式子,h(x)肯定跟p(x)的对数有关。

两点说明:

  1. 越不可能发生的事件发生了,则由其带来的信息量就越大。上式满足;
  2. 底数2纯属是遵循信息论里的熵。当然,其他底也是可以的。

4. 信息熵

信息量是一具体事件发生所带来的信息;
信息熵则是一事件所有可能性产生信息量的期望。
所以,有下式子:
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=i=1np(xi)logp(xi)

总结,就一句话,信息熵是一事件所有可能性产生信息量的期望。
本次参考了忆臻的机器学习算法与自然语言处理。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值