算一串数字的entropy_编码之统计编码与信息熵

1

.统计编码原理──信息量和信息熵

根据香农信息论的原理,

最佳的数据压缩方法的理论极限是信息熵。

如果要求在编码过

程中不丢失信息量,

即要求保存信息熵,

这种信息保持的编码又叫熵保存编码,

或叫熵编码。

熵编码是无失真压缩。

当然在考虑人眼失真不易察觉的生理特性时,

有些图像编码不严格要

求熵保存,信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。

信息是用不确定性的量度定义的,也就是说信息被假设为由一系列的随机变量所代表,

它们往往用随机出现的符号来表示。我们称输出这些符号的源为“信源”

。也就是要进行研

究与压缩的对象。

信息量

信息量指从

N

个相等可能事件中选出一个事件所需要的信息度量或含量,也可以说是

辨别

N

个事件中特定事件过程中所需提问“是”或“否”的最小次数。

例如:从

64

个数(

1

64

的整数)中选定某一个数(采用折半查找算法)

,提问:

“是

否大于

32

?”

,则不论回答是与否,都消去半数的可能事件,如此下去,只要问

6

次这类问

题,就可以从

64

个数中选定一个数,则所需的信息量是

=6

(

bit

)

我们现在可以换一种方式定义信息量,也就是信息论中信息量的定义。

设从

N

中选定任一个数

X

的概率为

P(x)

假定任选一个数的概率都相等,

P(x)=1/N

则信息量

I(x)

可定义为:

上式可随对数所用“底”的不同而取不同的值,因而其单位也就不同。设底取大于

1

的整数

α

,考虑一般物理器件的二态性,通常

α

2

,相应的信息量单位为比特(

bit

)

;当

α

=e

,相应的信息量单位为奈特(

Nat

)

;当

α

=10

,相应的信息量单位为哈特(

Hart

)

显然,当随机事件

x

发生的先验概率

P(x)

大时,算出的

I(x)

小,那么这个事件发生的可

能性大,不确定性小,事件一旦发生后提供的信息量也少。必然事件的

P(x)

等于

1

I(x)

0

所以必然事件的消息报导,

不含任何信息量;

但是一件人们都没有估计到的事件

(

P(x)

极小)

,一旦发生后,

I(x)

大,包含的信息量很大。所以随机事件的先验概率,与事件发生后

所产生的信息量,有密切关系。

I(x)

x

发生后的自信息量,它也是一个随机变量。

P(x)

大时,算出的

I(x)

小必然事件的

P(x)

等于

1

I(x)

等于

0

P(x)

小时,算出的

I(x)

大必然事件的

P(x)

等于

0

I(x)

等于

1

I(x)

x

发生后的自信息量,它也是一个随机变量。

信息熵

现在可以给“熵”下个定义了。信息量计算的是一个信源的某一个事件(

X

)的自信息

量,而一个信源若由

n

个随机事件组成,

n

个随机事件的平均信息量就定义为熵

(Entropy)

熵的准确定义是:

信源

X

发出的

xj(j=1,2,

……

n),

n

个随机事件的自信息统计平均

(求

数学期望)

,即

H(X)

在信息论中称为信源

X

的“熵(

Entropy

)

,它的含义是信源

X

发出任意一个随机

变量的平均信息量。

更详细的说,一般在解释和理解信息熵有

4

种样式

(

1

)当处于事件发生之前,

H(X)

是不确定性的度量;

(

2

)当处于事件发生之时,是一种惊奇性的度量;

(

3

)当处于事件发生之后,是获得信息的度量;

(

4

)还可以理解为是事件随机性的度量.

下面为了掌握信息熵的概念,我们来做一道计算题。

例如:以信源

X

中有

8

个随机事件,即

n=8

。每一个随机事件的概率都相等,即

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值