信息熵从何而来?
在丰富的世界中,人类如同初生的婴儿,在认识世界的过程中逐渐成长。信息以一种特殊的方式陪伴着人类社会的发展和科学的进步。人类的众多发明发现都是在探究世界的确定性,而信息的神奇之处就在于它的用途是对不确定性信息的排除。1948年,Shannnon在《通信的数学原理》中写到:“信息是用来消除随机不确定性的东西”,并且定义信息熵为随机事件出现的概率。恰如对于随机运动的粒子,温度的概念是对其有序化的度量,而信息熵的概念是对其无序化的度量。信息熵有效的量化了信息在排除不确定性上的价值,使得信息这一抽象事物有了衡量的方法。
什么是信息熵?
如上所述,信息在功能上的价值是其对不确定性的排除程度。因此信息的大小与其形式,传播方法,长度无关,而是与不确定性存在直接关系。例如同样是了解信息熵知识,小明可以通过收听音频、观看课程视频、查阅相关书籍以及浏览技术帖获取,但是无论是何种方式,只要内容主题相同,小明最终获得的信息输出相同,因此信息的不确定性是一致的,信息的大小相同。
如何利用信息熵衡量信息的大小,由Shannon对信息熵的最初定义,考虑一个离散的随机变量x,信息的亮度应该依赖于概率分布p(x),因此我们试图寻找一个函数I(x),使其满足线性可加性,即:
并且I(x)是p(x)的单调函数。
考虑到上述的要求,利用两独立事件的概率乘法性质定义I(x):
因为
所以有
故I(x)可以定义为:
通过I(x)可以衡量出信息关于事件x的不确定性程度,其中a可以是任意底数,一般取自然底数。
然而该种定义中的I(x)仅仅能反映单个事件在信息中的不确定性度量,但是现实生活中的信息往往是对多个事件之间的描述,因此引入信息传输的平均信息量,将信息熵定义为:
通过信息熵,可以对信息整体的不确定性进行衡量,进而得到信息在功能上的价值。通过衡量信息熵,人们可以选择更有效的信息来提升解决问题的效率。
例如:某个城市发生了失窃案,罪犯可能是甲,乙,丙三者之一,此时有A,B,C三人进行调查,通过A,B,C三人各自的调查结果,嫌疑人是罪犯的概率如下:
甲 | 乙 | 丙 | |
A | 0.33 | 0.33 | 0.34 |
B | 0.1 | 0.1 | 0.8 |
C | 0.02 | 0.01 | 0.97 |
假设A,B,C三人从证据中给出的推断结果完全正确,则可以得到三人所给信息的不确定性度量如下:
从信息熵的角度可以看出,C的信息熵最小,即信息的不确定性最弱,因此C给出的信息最有利于罪犯的确定。并且从这个例子中可以看出给出的信息不确定性越高(例如A的推断中三个嫌疑人的可能性几乎一致),信息熵就越大。
无论是科学的探索还是日常的生活,我们总是在追求着确定的准确的认识,可是不确定性是始终会存在的。信息可以纯化为我们的认知,排除可以排除的不确定性。而信息熵如同一个无形的天枰,衡量着信息的意义。