首先是抛出信息的熵的计算公式:
其中p(xi)代表的是随机事件X取值为xi的概率值,
信息量是对信息的度量,和对时间的度量是s(秒)是一样的。当我们在考虑一个离散随机变量X的取值的时候,每一个取值都代表着我们接受到了多少对应的信息。所以信息大小跟随机变量的概率大小有关系的。随机变量的概率越小,则信息越大;概率越大则信息越小。比如太阳从东边升起来了(必然事件,则信息很小)。
所以说呀,一个具体事件的信息量是随着该事件的发生概率的大小而递减的。
下面来看看这个信息量的函数的表达式的产生的形式的说明。
现在假设我们有两个事件是不相关事件。当这两个不相关事件同时发生时获取到的信息量的大小等个这两个事件各自发生时对应的信息量的大小之和。如下所示:
h(x,y) = h(x) + h(y)
x,y两个不相关事件满足:p(x,y) = p(x)*p(y)
所以信息量的计算公式为:
其中说明:负号是为了保证信息量为正数或者0,信息量不可可能是负数的。
底数为2,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!
下面正式给出信息熵:
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望
考虑奥该随机变量的所有的可能的取值,则所有可能发生事件带来的信息量的期望值,即:
转化一下表达形式:
额外理解:
这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。
如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。