h(x)=−log2p(x)
考虑一个离散型随机变量 x,当我们观测到该变量的一个特定值,问此时我们通过该值获得的关于该变量的信息量是多少?
- 信息量可视为“意外的程度”(degree of surprise)关于对该随机变量 x 的掌握;
- 如果该事件发生了,而我们事先被告知,该事件极不可能(highly improbable)发生,将会比被告知该事件极极可能发生(very likely)获得更可能多的信息,
- 又或者当我们确定(certain)该变量会发生,且事件确实发生时,我们获得的信息是零(从信息——意外的程度,的观点来看的话)
由以上的感性判断可知:
- 信息的度量与随机变量的概率分布(p(x))有关,或者说取决于随机变量的概率分布(p(x))
- 因此我们定义 h(x) 是 p(x) 的单调函数,
- 如果两事件 x 和 y 彼此无关,因此,可知 h(x,y)=h(x)+h(y),二者无关时,由概率论的知识可知,p(x,y)=p(x)p(y),
h(x)=−log2p(x)