信息熵与压缩编码基础

一、什么是信息熵?

信息量

信息量是对信息的度量。对于一个随机变量,如何衡量随机变量的具体值(也就是事件发生)带来的信息量呢?信息量衡量事件发生带来的信息量,因此与事件发生的概率大小有关。一般越不可能发生的事件发生了带来的信息量越大,也就是说,概率越小的事件带来的信息量越大。因此一个事件的信息量是随着事件发生的概率递减的,且不能为负。
信息量公式
对于两个不相关的事件,同时发生带来的信息量应满足如下公式:
h(x+y)=h(x)+h(y)
由于两个事件不相关,则概率满足公式:
p(x,y)=p(x)p(y)
根据上面两个公式,我们可以发现信息量一定和概率的对数有关,才能使信息量的加法转换为概率的乘法。因此信息量公式如下:
h(x)=-㏒₂p(x)

信息熵

信息量度量的是一个随机事件发生带来的信息量,而信息熵则是考虑一个随机变量(有多个对应的随机事件),因此信息熵可看作随机事件的信息量关于随机事件的期望,也就是说,考虑随机变量所有可能的取值,计算所有取值带来的信息量的期望。公式如下:
在这里插入图片描述
如果随机变量的情况越简单,比如某个事件的概率为1的极端情况下,信息熵的最小值为0,此时随机变量的不确定性最低。当随机变量X服从均匀分布时,熵最大,此时随机变量的不确定性最高。因此,熵可以衡量随机变量的不确定性,不确定性越大熵越高。

参考博客信息熵、条件熵、信息增益

二、例题

(一)一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE,请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少?

A出现的概率p(x₁)=6/42,B出现的概率p(x₂)=4/42,C出现的概率p(x₃)=9/42,D出现的概率p(x4)=4/42,E出现的概率p(x5)=19/42
所以信息熵H(X)=6/42㏒₂42/6+4/42㏒₂42/4+9/42㏒₂42/9+4/42㏒₂42/4+19/42㏒₂42/19≈0.4011+0.3231+0.4762+0.3231+0.5177≈2.0412

字母香农-凡诺编码霍夫曼编码
A110110
B11101110
C1010
D11111111
E00

两种编码方法得到的结果是一样的,因此理论上编码是需要三位二进制编码,42个字符共126个,实际上是36+44+29+44+1*19=87个,所以压缩比是126:87=1.45:1

(二)一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节?如果将其保存为非压缩格式的BMP文件,文件有多少字节?请用实例验证。

24位彩色图像,也就是说每个像素点占24(bit),也就是3(byte),因此1024768的RGB彩色图像占有1024768*3=2,359,296(byte)=2304(KB)=2.25(MB)。
当保存为非压缩格式的BMP文件时
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值