C++实现基于哈夫曼树的数据压缩算法

本文档详细介绍了使用哈夫曼编码进行文本压缩的设计与实现。通过需求分析,确定采用哈夫曼编码以提高传输效率,特别是针对高频率字符。主要内容包括数据结构设计、哈夫曼树构建以及压缩与解压的详细步骤。程序还具备错误处理功能,优化了命令行交互,并提供了清晰的输出格式。测试与分析部分展示了程序的易用性和压缩效果。
摘要由CSDN通过智能技术生成

1. 需求分析

现如今互联网无时无刻不在传输海量的数据,但这其中很多数据是冗余的,有非常多重复的字节(字符),如果设计一个转化表,将二进制数 01 代表一个 1 字节的字符,那么传输效率将大大提升。将二进制数替代本身字符有如下几点要求:

  • 因为需要解压,所以编码不能有异议性,也就是说任意字符对应的二进制数不能“包含其它字符对应的二进制数”
  • 需要尽可能地缩短编码的平均长度,可以让出现频率高的字符对应较短的字节,出现频率较低的字符对应较长的字节

2. 总体设计

根据以上需求,可以采用哈夫曼编码(Huffman Coding),哈夫曼编码是一种可变长编码,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字。

考虑需要压缩的内容一般都非常长,不利于在命令行中输入及粘贴,所以考虑从文本文件(txt)中读取内容,压缩后输出在命令行中

3. 详细设计

数据结构:

  • 内容结构:
typedef struct Contents
{
    int size;  // 读入字串的大小
    char* pt;  // 读入的内容
    int* frequency;  // 存储每个字符出现的次数
    int** huffmanCode;  // 存储每个字符的哈夫曼编码
} Contents;
  • 哈夫曼树结构:
typedef struct HuffmanTreeNode
{
    int weight;  // 结点的权重
    int value;  // 结点的值
    struct HuffmanTreeNode* LChild;  // 结点的左孩子
    struct HuffmanTreeNode* RChild;  // 结点的右孩子
} Node,*PNode;

函数:

  • 主模块:
int main(int argc, char *argv[]);
error()
void error();
  • 加密模块:
void encode(char *argv[]);
Contents* readFile(FILE *fp);
void clear(Contents* content, PNode top);
  • 文本分析模块:
void frequency(Contents* content);
PNode* intArray2PNodeArray(Contents* content);
void sort(PNode* a,int i);
  • 哈夫曼树模块:
PNode createHuffmanTree(PNode * a);
void InorderTraversal(PNode top);
void PreorderTraversal(PNode top);
void PostorderTraversal(PNode top);
void printHuffmanTree(PNode top);
void createHuffmanCoding(PNode top, Contents* content ,int* code , int n);

另:源文件中有所有函数的详细解释(函数名、功能、调用的函数、被调用、输入、输出、返回值···),例如:

在这里插入图片描述

4. 系统测试与分析

为了方便他人操作,我对程序做了两部优化:

  • 使用命令行参数来选择功能及选择文件

在这里插入图片描述

  • 考虑到他人初次得到程序时不知道如何使用,我在设计程序时对不合法输入做了处理,使程序调用 error()函数来输出相关教程,非常简洁直观

在这里插入图片描述

  • 在考虑输出格式时考虑了 windows 系统下换行符由“\t”“\n”两个字符组成,如果输入每个字符的表格的话会遇到输出格式的问题,所以一开始只输出 ASCII 码,但随后考虑到大量的 ASCII 码不利于阅读,权衡之下还是采用了字符输出。
  • 考虑到一般使用时需要直接得到哈夫曼编码,如果再保存到文件中会极大影响效率,因此将最后得到的哈夫曼编码直接显示在命令行中
  • 为应对各种错误情况,我对可能出现的错误(例如:不合法的输入、不存在的文件、文件被占用、内存分配失败···等情况都做了相对应的 error 处理)
    在这里插入图片描述

在这里插入图片描述

最后输出结果:

在这里插入图片描述
在这里插入图片描述

(输出包括文本内容、字符出现的个数、生成的哈弗曼树、每个字符对应的哈夫曼编码、最后压缩生成的文本,非常详尽)

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼树,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼树(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼树将文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼树(Tree printing)。将已在内存中的哈夫曼树以直观的方式(比如树)显示在终端上,同时将此字符形式的哈夫曼树写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼树,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shejizuopin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值