熵（entropy）的理解与最大熵模型

最新推荐文章于 2022-11-24 16:50:42 发布

dolphin4mi

最新推荐文章于 2022-11-24 16:50:42 发布

阅读量1k

点赞数

分类专栏：概率

概率专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前人栽树，后人乘凉，既然前人已经完成了的工作，我觉得没必要做重复的工作，“拿来主义”对于我个人的入门和学习是必要的。在此谢谢他们。内容来自：https://blog.csdn.net/u012111465/article/details/77652285，如果有侵权，联系我删除。

文章目录

1. 公式及其含义
2. 信息量
3. 由信息量想到的
4. 信息熵

1. 公式及其含义

熵的公式：
$H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$
log的原因是，一条信息的可能性数量随着位数的增加是指数的。用二进制bit表示，1bit有2个状态，2bit有4个状态，Nbit有2^N个可能状态。可能性的数量随指数上升，指数那么变回线性的形式就是log咯~至于对数的底是e还是2无所谓，只是一个比例因子而已。一条信息是log，N条信息就是Nlog咯。最后，熵表示混乱度，考虑到符合物理意义理解的话，加上负号。最后就是形如 $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$ 。Michael Ding说：最后这句话，“熵表示混乱度”，这句话是从物理熵（热力学熵）的角度来理解的吧，从信息熵角度来理解是信息的丰富程度我觉得好有道理……

熵的含义：
样本集合不纯度，熵越小，集合不纯度越低；
知识的不确定性，熵越小，不确定性越小；
系统的复杂度，熵越大，系统越复杂。（系统越复杂，出现不同情况越多，信息量越大，熵越大。）

2. 信息量

信息量是对信息的度量，就好比米是对距离的度量。信息量到底多大，跟发生的事件有关，具体说跟事件发生的概率有关。举两个例子说一下：

刷微博，发现新闻哪位明星出轨了，关键这位明星是给大家的印象很好。于是，我告诉朋友，谁谁出轨了，朋友惊讶地说：“呀，怎么可能啊！”（这是一事件，发生概率小，但是给我们带来了很大的信息，即信息量却很大。也就是说，越不可能发生的事件发生了，则由其带来的信息量就越大。）
一朋友谈了朋友，几年后跟我说他们要结婚了，我说：“恭喜啊！修成正果。”（这一事件相对于上一事件来说，信息量不是那么大，原因是，他们结婚或者没在一起了都是意料之中的事情。也就是说，越能意识到的事情发生了（大概率事件发生了），则由其带来的信息量越小。）

事件发生的概率与信息量之间关系图：
在这里插入图片描述
后面的式子会有具体的关系，这条线是与x轴相交于（1，0）点的。

3. 由信息量想到的

假设有两个不相关的事件X、Y，x、y分别为这两个事件的取值。
这两个事件的联合信息：h(x,y) = h(x) + h(y)
这两个事件的联合概率：p(x,y) = p(x)p(y)
上面列的两个式子是有原因的，还是那句话，信息量到底多大，跟发生的事件有关，具体说跟事件发生的概率有关。
因此，h(x)跟p(x)有关，再根据上面的两个式子，h(x)肯定跟p(x)的对数有关。

两点说明：

越不可能发生的事件发生了，则由其带来的信息量就越大。上式满足；
底数2纯属是遵循信息论里的熵。当然，其他底也是可以的。

4. 信息熵

信息量是一具体事件发生所带来的信息；
信息熵则是一事件所有可能性产生信息量的期望。
所以，有下式子：
$H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

总结，就一句话，信息熵是一事件所有可能性产生信息量的期望。
本次参考了忆臻的机器学习算法与自然语言处理。

dolphin4mi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
熵（entropy）的理解与最大熵模型

公式及其含义2.信息量由信息量想到的信息熵1. 公式及其含义熵的公式：H(X)=−∑i=1np(xi)log⁡p(xi)H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)H(X)=−i=1∑np(xi)logp(xi)log的原因是，一条信息的可能性数量随着位数的增加是指数的。用二进制bit表示...
复制链接

扫一扫

专栏目录