Huffman编码实现压缩、解压文件

Huffman编码:根据词频构建Huffman树,实现对文本的前缀编码。

1、统计文本中每个字符出现的次数,放入优先队列中,构建一棵空的二叉树

2、取出频率最小的两个字符a、b,字符a、b的频率分别作为此二叉树的左右结点,左结点的编号为1,右结点的编号为0,其频率之和(fa + fb)作为该二叉树的父亲节点,放入优先队列,并将f 、fb 从优先队列中除去;

3、重复第二步操作,直至优先队列中只剩下一个数,即为此Huffman树的根节点。

4、从根节点到每个叶节点(文本中出现的字符)的“路径”,即0、1序列串就是该字符的前缀编码。

注:这种编码方式保证了,任意一个字符的编码都不会是其他字符编码的前缀,这样在解码过程中就不会混淆。


数据结构:

为方便记录每个字符的前缀编码,在构建Huffman树过程中,需要保存每一个结点的父亲节点、左右儿子结点、叶节点对应字符、当前结点频率。


压缩过程:

1、首先构建Huffman树,获得每个字符对应的前缀编码;

2、将字符及其对应的前缀编码等压缩信息写入压缩文档中,便于解码;

3、扫描文本,将文本中的字符转换成0、1串,每八位,即一个字节对应的字符存储到压缩文件中。

注:如果最后存储的0、1串不足八位,则在末尾补0,然后将补的位数信息写入压缩文件中。


解压过程:

1、读取压缩信息;

2、扫描压缩文本,将每个字符转化成0、1串,匹配字符的前缀编码,转化成原始文件。

注:解码时需删除之前补充的位数


一点体会:

1、总在循环内,动态申请数组,会导致程序崩溃;

2、千万不要在循环内,每次都调用strlen函数,我表示没能深入了解此函数内涵,导致程序慢的要死;

3、原文本越大,压缩率越高,对于一个2M的文件,压缩率大约在45%左右;

4、感谢领导倾情指点,比赛加油!


压缩过程程序源码:

#include <iostream>
#include <fstream>
#include <cstring>
#include <queue>
#include <algorithm>
#include <time.h>
using namespace std;

typedef long long LL;
const int FILE_LENGTH = 1000;
//maximal bytes which is read from file each time
const long long MAX_MEMORY = 3 * 1024 * 1024;
//number of kinds of character
const int KIND_OF_CHARACTER = 260;
//the maximal length of Huffman code
const int HUFFMAN_CODE_LENGTH = 1000;
//the position of the size of original file in compressed file
const int OFFSET = 20;
//store compress file in 8 bits
const int nBits = 8;

struct Node {
    char c; // character
    int parent, lChild, rChild;//children node
    int iNode; //the serial number of node
    LL number; //number of corresponding character
    friend bool operator < (Node a, Node b) {
        return a.
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值