本文摘抄自《信息论基础-第二版》第二章:熵、相对熵与互信息
1、熵
首先介绍熵的概念,他是随机变量不确定度的度量。设X是一个离散型随机变量,其取值空间为,概率密度函数。为方便起见,记概率密度函数为以代替,由此,和指两个不同的随机变量,实际上分别表示两个不同的概率密度函数和。
定义:一个离散随机变量X的熵定义为
有时也将上面的量记为H(p)。其中对数log所用的底是2,熵的单位用比特表示。例如,抛掷均匀硬币这一事件的熵为1比特。由于当时,,今后我们约定,因为加上0概率的项不改变熵的值。
如果使用底数为b的对数,则相应的熵记为。当对数底为e时,熵的单位用奈特表示。如无特别声明,一般选取对数底为2,因而熵的量纲一般情况下为比特。注意,熵实际上时随机变量X的分布的泛函数,并不依赖于X的实际取值,而仅依赖于其概率分布。
用E表示数学期望。如果,则随机变量的期望值可记为:
或者当概率密度函数可由上下文确定时,简记为。我们特别关注,当 时,即为熵的定义。
注释 X的熵又解释为随机变量的期望值,其中p(x)是X的概率密度函数于是
熵的这个定义于热力学中的熵是有联系的,在后面我们会阐述其中的某些联系。其实,通过定义随机变量的熵必须满足的某些性质,可以采用功利化的方法获得熵的定义。
首先我们来看熵这个定义的一些性质:
引理2.1.1
证明: 由知,
引理2.1.2
证明:由即可得证。
熵的第二个性质告诉我们可以改变定义中对数的底。只要乘上一个恰当的常数因子,熵就可以从一个底变换到另一个底了。
例2.1.1 设于是
特别的,当p=1/2时,H(X)=1比特。函数H(p)的图形见图,图示说明熵的一些基本性质:H(p)为分布的凹函数,当p=0或1时,H(p)=0。这很有意义,因为当p=0或1时,变量不再是随机的,从而不具有不确定度。另外当p=1/2时,变量的不确定度达到最大,此时对应的熵也取最大值。
例2.1.2 设, 则熵为
比特。
假定利用最少二元问题数的方案确定变量X的值。有效的第一个问题时“X=a吗?”此问题分担了一般的概率。如果第一个问题答案是否定的,则第二个问题可能是“X=b吗?”第三个问题可能是“X=c”吗?结果所需的二元问题数据的期望值是7/4。可以证明,这是为了确定变量X的值所需的二元问题数的最小期望值。