一般地,如果一个随机事件有种等可能的结果,那么对其编码恰需要n位二进制数,即n比特来储存消息。
因此,可以把对所有可能消息的最小二进制编码位数近似着作该随机事件的熵,记为H。
对于上面的例子分别有
定义2.3 随机事件,发生概率的对数的相反数定义为该随机事件的自信息量,记作
。设
的发生概率为
,则其自信息为
当,即随机事件
,不发生时,
定义为无限大;当
,即随机事件为确定事件必然发生时,
;对于
,
非负。
在此定义中,对数的底决定自信息量的单位。如果以2为底,信息量的单位记为比特(bit);如果以e为底数(自然对数),则自信息量的单位记为奈特(nat)。
定义2.4 设随机变量X取值于,
出现的概率为
,
那么所有可能事件,的自信息量
的加权平均定义为随机变量X的信息熵,简称熵,记为H(X)。即:
为方便起见,约定时,
。
定理2.1 ,当且仅当对一切
,有
时,
。也就是说当概率是均匀分布时,
最大,也就是不确定性最大。
证明:由的定义知:
。由Jensen不等式可得:
=
=
当且仅当对一切,有
时等号成立。