首先公式长这样: H ( X ) = − ∑ i = 1 n p ( x i ) log p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=−i=1∑np(xi)logp(xi) P x i P_{x_{i}} Pxi表示随机事件X为 x i x_{i} xi的概率。
这里直接给出一些结论。对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量越小(最小不小于0)。因此,有信息量公式如下: h ( x ) = − log 2 p ( x ) h(x)=-\log _{2} p(x) h(x)=−log2p(x) 从这里还可以发现一个事实:如果某一事件的概率为100%,那么其信息量为0,即"已经确定的信息没有传递的价值"。
再看信息熵的定义。信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。说白了,信息熵就是信息量的数学期望,所以有: H ( X ) = − ∑ i = 1 n p ( x i ) log p ( x i ) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right) H(X)=−i=1∑np(xi)logp(xi)