笔记来自博客:http://www.ruanyifeng.com/blog/2017/04/entropy.html阮一峰老师博客文章《熵:宇宙的终极规则》 以及 吴军老师的书《数学之美》第二版
物理学中的熵:
物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。
一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。后来,这个概念被总结成了"热力学第二定律":能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。
能量转换会让系统的混乱度增加,熵就是系统的混乱度。
转换的能量越大,创造出来的新状态就会越多,因此高能量系统不如低能量系统稳定,因为前者的熵较大。而且,凡是运动的系统都会有能量转换,热力学第二定律就是在说,所有封闭系统最终都会趋向混乱度最大的状态,除非外部注入能量。
物理学告诉我们,没有办法消除熵和混乱,我们只是让某些局部变得更有秩序,把混乱转移到另一些领域。
信息学中的熵:
一条信息的信息量与其不确定性有着直接的关系。比如说:要弄懂一件非常不确定的或者是一无所知的事,就需要了解大量信息。如果已经对某件事了解较多,则不需要太多的信息就能将其搞清楚。信息量就等于不确定性的多少,而信息量的量化度量就是信息学中的熵。
一个事物内部会有随机性(不确定性),假定为U,从外部消除这个不确定性惟一的方法就是引入信息I,而需要引入的信息量取决于这个不确定的大小,即I>U 才行。当I<U时,
U’ = U – I
这些信息可以消除一部分不确定性,然后产生了新的不确定性U’。(就类似物理学理解把混乱转移到另一些领域)。反之,如果没有信息,任何公式或者数字游戏都无法排除不确定性。
条件熵‘
通过获取“相关的”信息能够消除不确定性,这就又引入了条件熵的概念。
假定X和Y是两个 随机变量,X是我们需要了解的。假定我们现在知道了X的随机分布P(X),那么也知道了X的熵:
X的原始不确定性就是这么打。现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,在数学上称为联合概率分布,以及在Y取不同值的前提下X的概率分布,在数学上称为条件概率。定义在Y的条件下的条件熵为:
H(X) >= H(X|Y) ,多了Y的信息后,关于X的不确定性下降了。
互信息
而互信息就是衡量H(X) 与 H(X|Y) 之间差异的量化度量,也是衡量X与Y两个事件的相关性的量化度量,就是在了解其中一个Y的前提下,对消除另一个不确定性所提供的信息量
I(X;Y) = H(X) - H(X|Y)
互信息是一个取值之间的函数,当X和Y完全相关时(就是在知道Y的条件下可以消除了X的所有不确定性,H(X|Y)=0),它的取值就是H(X),同时
H(X)= H(Y);反之二者完全无关时(就是在知道Y的条件下对X的不确定性没有任何消除作用,H(X|Y)= H(X)),它的取值是0.