浅谈信息熵

最新推荐文章于 2021-08-15 16:36:06 发布

Irene_Mei

最新推荐文章于 2021-08-15 16:36:06 发布

阅读量473

点赞数 1

分类专栏：信息论数据处理文章标签：信息信息熵

本文链接：https://blog.csdn.net/qq_34612941/article/details/87624774

版权

信息论同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

数据处理

1 篇文章 0 订阅

订阅专栏

信息熵从何而来？

在丰富的世界中，人类如同初生的婴儿，在认识世界的过程中逐渐成长。信息以一种特殊的方式陪伴着人类社会的发展和科学的进步。人类的众多发明发现都是在探究世界的确定性，而信息的神奇之处就在于它的用途是对不确定性信息的排除。1948年，Shannnon在《通信的数学原理》中写到：“信息是用来消除随机不确定性的东西”，并且定义信息熵为随机事件出现的概率。恰如对于随机运动的粒子，温度的概念是对其有序化的度量，而信息熵的概念是对其无序化的度量。信息熵有效的量化了信息在排除不确定性上的价值，使得信息这一抽象事物有了衡量的方法。

什么是信息熵？

如上所述，信息在功能上的价值是其对不确定性的排除程度。因此信息的大小与其形式，传播方法，长度无关，而是与不确定性存在直接关系。例如同样是了解信息熵知识，小明可以通过收听音频、观看课程视频、查阅相关书籍以及浏览技术帖获取，但是无论是何种方式，只要内容主题相同，小明最终获得的信息输出相同，因此信息的不确定性是一致的，信息的大小相同。

如何利用信息熵衡量信息的大小，由Shannon对信息熵的最初定义，考虑一个离散的随机变量x,信息的亮度应该依赖于概率分布p(x)，因此我们试图寻找一个函数I(x),使其满足线性可加性，即：

I(x,y)=I(x)+I(y)

并且I(x)是p(x)的单调函数。

考虑到上述的要求，利用两独立事件的概率乘法性质定义I(x)：

因为

p(x,y)=p(x)p(y)

所以有

$log_{a}(x,y)=log_{a}(x)+log_{a}(y)$

故I(x)可以定义为：

$I(x)=-log_{a}p(x)$

通过I(x)可以衡量出信息关于事件x的不确定性程度，其中a可以是任意底数，一般取自然底数。

然而该种定义中的I(x)仅仅能反映单个事件在信息中的不确定性度量，但是现实生活中的信息往往是对多个事件之间的描述，因此引入信息传输的平均信息量，将信息熵定义为：

$H(x)=-\sum p(x)log(p(x))$

通过信息熵，可以对信息整体的不确定性进行衡量，进而得到信息在功能上的价值。通过衡量信息熵，人们可以选择更有效的信息来提升解决问题的效率。

例如：某个城市发生了失窃案，罪犯可能是甲，乙，丙三者之一，此时有A,B,C三人进行调查，通过A,B,C三人各自的调查结果，嫌疑人是罪犯的概率如下：

	甲	乙	丙
A	0.33	0.33	0.34
B	0.1	0.1	0.8
C	0.02	0.01	0.97

假设A,B,C三人从证据中给出的推断结果完全正确，则可以得到三人所给信息的不确定性度量如下：

$H_{A}=-0.33log0.33-0.33log0.33-0.33log0.33=0.4766712$

$H_{B}=-0.1log0.1--0.1log0.1-0.8log0.8=0.277528$

$H_{C}=-0.01log0.01-0.02log0.02-0.97log0.97=0.06681082$

从信息熵的角度可以看出，C的信息熵最小，即信息的不确定性最弱，因此C给出的信息最有利于罪犯的确定。并且从这个例子中可以看出给出的信息不确定性越高（例如A的推断中三个嫌疑人的可能性几乎一致），信息熵就越大。

无论是科学的探索还是日常的生活，我们总是在追求着确定的准确的认识，可是不确定性是始终会存在的。信息可以纯化为我们的认知，排除可以排除的不确定性。而信息熵如同一个无形的天枰，衡量着信息的意义。

Irene_Mei

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈信息熵

信息熵从何而来？在丰富的世界中，人类如同初生的婴儿，在认识世界的过程中逐渐成长。信息以一种特殊的方式陪伴着人类社会的发展和科学的进步。人类的众多发明发现都是在探究世界的确定性，而信息的神奇之处就在于它的用途是对不确定性信息的排除。1948年，Shannnon在《通信的数学原理》中写到：“信息是用来消除随机不确定性的东西”，并且定义信息熵为随机事件出现的概率。恰如对于随机运动的粒子，温度的概念...
复制链接

扫一扫

专栏目录