1
.统计编码原理──信息量和信息熵
根据香农信息论的原理,
最佳的数据压缩方法的理论极限是信息熵。
如果要求在编码过
程中不丢失信息量,
即要求保存信息熵,
这种信息保持的编码又叫熵保存编码,
或叫熵编码。
熵编码是无失真压缩。
当然在考虑人眼失真不易察觉的生理特性时,
有些图像编码不严格要
求熵保存,信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。
信息是用不确定性的量度定义的,也就是说信息被假设为由一系列的随机变量所代表,
它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”
。也就是要进行研
究与压缩的对象。
信息量
信息量指从
N
个相等可能事件中选出一个事件所需要的信息度量或含量,也可以说是
辨别
N
个事件中特定事件过程中所需提问“是”或“否”的最小次数。
例如:从
64
个数(
1
~
64
的整数)中选定某一个数(采用折半查找算法)
,提问:
“是
否大于
32
?”
,则不论回答是与否,都消去半数的可能事件,如此下去,只要问
6
次这类问
题,就可以从
64
个数中选定一个数,则所需的信息量是
=6
(
bit
)
。
我们现在可以换一种方式定义信息量,也就是信息论中信息量的定义。
设从
N
中选定任一个数
X
的概率为
P(x)
,
假定任选一个数的概率都相等,
即
P(x)=1/N
,
则信息量
I(x)
可定义为:
上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同。设底取大于
1
的整数
α
,考虑一般物理器件的二态性,通常
α
取
2
,相应的信息量单位为比特(
bit
)
;当
α
=e
,相应的信息量单位为奈特(
Nat
)
;当
α
=10
,相应的信息量单位为哈特(
Hart
)
。
显然,当随机事件
x
发生的先验概率
P(x)
大时,算出的
I(x)
小,那么这个事件发生的可
能性大,不确定性小,事件一旦发生后提供的信息量也少。必然事件的
P(x)
等于
1
,
I(x)
等
于
0
,
所以必然事件的消息报导,
不含任何信息量;
但是一件人们都没有估计到的事件
(
P(x)
极小)
,一旦发生后,
I(x)
大,包含的信息量很大。所以随机事件的先验概率,与事件发生后
所产生的信息量,有密切关系。
I(x)
称
x
发生后的自信息量,它也是一个随机变量。
P(x)
大时,算出的
I(x)
小必然事件的
P(x)
等于
1
,
I(x)
等于
0
。
P(x)
小时,算出的
I(x)
大必然事件的
P(x)
等于
0
,
I(x)
等于
1
。
I(x)
称
x
发生后的自信息量,它也是一个随机变量。
信息熵
现在可以给“熵”下个定义了。信息量计算的是一个信源的某一个事件(
X
)的自信息
量,而一个信源若由
n
个随机事件组成,
n
个随机事件的平均信息量就定义为熵
(Entropy)
。
熵的准确定义是:
信源
X
发出的
xj(j=1,2,
……
n),
共
n
个随机事件的自信息统计平均
(求
数学期望)
,即
H(X)
在信息论中称为信源
X
的“熵(
Entropy
)
”
,它的含义是信源
X
发出任意一个随机
变量的平均信息量。
更详细的说,一般在解释和理解信息熵有
4
种样式
(
1
)当处于事件发生之前,
H(X)
是不确定性的度量;
(
2
)当处于事件发生之时,是一种惊奇性的度量;
(
3
)当处于事件发生之后,是获得信息的度量;
(
4
)还可以理解为是事件随机性的度量.
下面为了掌握信息熵的概念,我们来做一道计算题。
例如:以信源
X
中有
8
个随机事件,即
n=8
。每一个随机事件的概率都相等,即