Huffman树与文件压缩的原理

1、Huffman树的简单介绍以及带权路径长度的求解

       Huffman树,又称为最优二叉树,是加权路径长度(weighted path length)最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度。
        下面,我要用一个简单的数组构造一棵Huffman树,然后再求其加权路径长度:

a[]={0,1,2,3,4,5,6,7,8,9};

这里写图片描述

从图片里我们可以看到数组里面的元素都成了Huffman树的叶子节点(它总是从数组里面找到最小的两个元素开始构造,再把两个数之和放回数组,重复上述过程)。
那么这棵树的带权路径长度是多少呢?wpl=4*3+5*3+9*2+0*6+1*6+2*5+3*4+6*3+7*3+8*3

2、如何利用haffman编码实现文件压缩

(1)统计文件中字符出现的次数,例如:input.txt文件中存放的有以下内容:

aaaabbbccd

经过统计:a——4次;
                  b——3次;
                  c——2次;
                  d——1次;

(2)用(1)中的统计结果来构造haffman树:
这里写图片描述
(3)根据haffman树生成haffman编码(路径左边记为0,右边记为1):

a的编码为 1
b的编码为 01
c的编码为 001
d的编码为 000

(4)压缩

源文件内容为:aaaabbbccd
将源文件用对应的haffman code替换,则有:11110101 01001001 00011111

需要注意的是:haffman code 末尾的5个1是用来补位用的,为了凑够整数个字节,方便计算机的处理和运算。

由此可见,源文件一共有10个字符,占10字节的内存,但是经过用haffman code替换之后,只占3个字节,这样就能达到压缩的目的

(5)解压缩

       解压缩的过程就是一个还原源文件的过程,一个字符一个字符的顺序读取haffman编码的内容,读到叶子节点就进行还原,没读到就继续向下读。

3、关于文件压缩的常见问题

        到这里,我们已经初步了解了文件压缩的基本原理,但是我们可以再深入讨论几个问题:
(1)为什么文件可以被压缩?
       文件压缩的原理是把文件中的重复数据用更简洁的方法来表示和存储,例如一个文件中有1000个字母A,那么这将占用1KB的数据空间,如果用压缩算法就可以用1000A来表示,那么它只需要5个字节的数据空间,压缩比达到了200倍。但是通常来说,我们在生活中使用的文件不可能存在这么多的重复数据,所以一般来说,文件压缩比只能达到10倍以下。
(2)什么情况下压缩效果好?
       由第一个问题,我们可以知道,当文件中重复数据非常多的时候,压缩比比较高,这时候,压缩效果也是最好的。换一句话说,在用贪心算法构建haffman树的时候,出现频率高的数据和出现频率低的数据差距特别大的时候,压缩效果是比较好的。
(3)什么情况下压缩效果差?
       当重复字符出现次数都差不多的时候或者文件中没有出现重复字符的时候,压缩效果是很差的。(有时候也会出现文件越压缩越大的情况)

PS:详细分析过程请点击以下链接:

haffman算法实现文件的压缩与解压缩

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼树,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼树(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼树文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼树(Tree printing)。将已在内存中的哈夫曼树以直观的方式(比如)显示在终端上,同时将此字符形式的哈夫曼树写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼树,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值