一、信息熵:
信息熵 是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的 出现概率 (离散随机事件的出现概率)。 一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。 信息熵也可以说是系统有序化程度的一个度量。
二、问题:
一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE,
请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少?
我们可以看到内容总共含42个符号,其中6个A,4个B,9个C,4个D,19个E,其对应的概率分别为1/7,2/21,3/14,2/21,19/42
可以看到其概率分布如下:
A | B | C | D | E |
---|---|---|---|---|
1/7 | 2/21 | 3/14 | 2/21 | 19/42 |
信息熵计算为2.043
香农编码
编码步骤
(1)将信源符号按概率从大到小顺序排列,为方便起见
(2)按计算第i个符号对应的码字的码长(取整);
(3) 计算第i个符号的累加概