h(x)=−log2p(x)
考虑一个离散型随机变量 x ,当我们观测到该变量的一个特定值,问此时我们通过该值获得的关于该变量的信息量是多少?
- 信息量可视为“意外的程度”(degree of surprise)关于对该随机变量
x 的掌握;- 如果该事件发生了,而我们事先被告知,该事件极不可能(highly improbable)发生,将会比被告知该事件极极可能发生(very likely)获得更可能多的信息,
- 又或者当我们确定(certain)该变量会发生,且事件确实发生时,我们获得的信息是零(从信息——意外的程度,的观点来看的话)
由以上的感性判断可知:
- 信息的度量与随机变量的概率分布( p(x) )有关,或者说取决于随机变量的概率分布( p(x) )
- 因此我们定义 h(x) 是 p(x) 的单调函数,
- 如果两事件
x
和
y 彼此无关,因此,可知 h(x,y)=h(x)+h(y) ,二者无关时,由概率论的知识可知, p(x,y)=p(x)p(y) ,
h(x)=−log2p(x)
- 如果该事件发生了,而我们事先被告知,该事件极不可能(highly improbable)发生,将会比被告知该事件极极可能发生(very likely)获得更可能多的信息,