信息熵与压缩编码基础

什么是信息熵?

1、理论提出
信息熵是香农于1948年提出的概念,用来描述信源的不确定度,是从热力学中借用过来的概念。
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。

Shannon 借鉴了热力学的概念,把信息中排除了冗余后
2、基本内容
在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵,即
在这里插入图片描述
式中对数一般取2为底,单位为比特。

二、信息熵计算实例与压缩编码
一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE, 请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少?
1、信息熵
AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE中总共含42个符号,其中6个A,4个B,9个C,4个D,19个E,其对应的概率分别为1/7,2/21,3/14,2/21,19/42。然后我们进行对其概率分布,计算其信息熵为2.043
2.香农-凡诺编码
二分法香农-范诺编码方法的步骤如下:
(1)将信源符号按照其出现概率从大到小排序;
(2)从这个概率集合中的某个位置将其分为两个子集合,并尽量使两个子集合的概率和近似相等,给前面一个子集合赋值为0,后面一个子集合赋值为1;
(3)重复步骤(2),直到各个子集合中只有一个元素为止;
(4)将每个元素所属的子集合的值依次串起来,即可得到各个元素的香农编码。
按概率大小排序(由小到大)
计算得到香农编码为2.1905
3.霍夫曼编码
数据结构中学习过霍夫曼编码相关算法,利用二叉树层层算。
计算得 霍夫曼编码 2.0714

三、图片格式切换及所占存储空间
一幅1024768的24位RGB彩色图像一共在内存中占有多少字节? 如果将其保存为非压缩格式的BMP文件,文件有多少字节?请用实例验证。
1、所占字节
24位真彩,即每个像素占24bit,一个字节可以储存8位数据。1024
768个像素点,1024 76824=18874368(bit),再除以8转换为byte(8bit=1byte)=2359296(byte)。
又因为1024byte=1KB,再除以1024等于2304KB,如果再除以1024就是2.25MB
2、bmp所占字节

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值