【C语言->数据结构与算法】->哈夫曼压缩&解压缩->第一阶段->哈夫曼编码&解码的实现

Ⅰ 前言

在之前的文章里,我讲解了如何将一个字符串逐步生成哈夫曼树最后完成其编码,光说概念对编程是没有任何帮助的,这篇文章会用代码实现哈夫曼编码的构造过程。
这是完成最终项目——哈夫曼压缩&解压缩的第一部分,完成了这个阶段,后面只是改成文件级别的操作就可以了,代码的改动不会太大。

Ⅱ 代码实现哈夫曼编码&解码

按照之前我们讲哈夫曼树的时候,逐步做的一样,我们就按这个顺序来实现代码。
在这里插入图片描述

A. 构造哈夫曼树

首先我先给大家看一下这个代码需要的头文件,这是我自己的头文件tyz.h,里面是这个代码需要用到的宏和定义。👇

#ifndef _TYZ_H_
#define _TYZ_H_

#define TRUE 1
#define FALSE 0
#define NOT_FOUND -1

#define SET(value, index)    (value |= 1 << (index ^ 7))
#define CLEAR(value, index)  (value &= ~(1 << (index ^ 7)))
#define GET(value, index)    ((value) & (1 << (index ^ 7)) != 0)

typedef unsigned char boolean;
typedef unsigned int u32;
typedef unsigned short u16;
typedef boolean u8;

int skipBlank(const char *str);
boolean isRealStart(int ch);

#endif

代码里的int我都用u32替代,其他类型也是一样,我都用位数来替代。因为哈夫曼压缩解压缩需要牵扯到将数据压缩成以位为单位的空间中,所以用位数来替代本身的名字更加方便一些。

a. 频度统计

首先,这是我们需要得到的表👇
在这里插入图片描述
即输入一个字符串,我们需要根据字符串得到每个字符的频度,并将这个表存储起来,因为之后要根据这个表来构造哈夫曼树。

所以最适合存储字符的数据结构是结构体,这样就可以将一个字符和其频度存储起来,就像一个表一样。以下为我的结构体👇

typedef struct ATTRIBUTE {
   
	u8 character;
	u32 frequency; 
}ATTRIBUTE;

这就是存储一个字符的结构体,分为字符和频度两个部分。

我们知道,所有的字符都是由ASCII码为基的,ASCII码一共有256个,包括所有的可视字符和所有的不可视字符。所以我的想法是,构造一个大小为256的数组,对应着256个ASCII码,这样一个字符串输入进去,可以根据其ASCII码值分别统计,清晰明了。

这是我主函数里定义的实参,通过传参将其传入函数中。

	u8 str[128];
	u32 ascii[256] = {
   0};
	u32 characterCount;

以下为生成频度表的代码👇

ATTRIBUTE *initAttributeList(u8 *str, u32 *ascii, u32 *characterCount) {
   
	u32 i;
	u32 index = 0;
	u32 count = 0;
	ATTRIBUTE *attributeList;

	for (i = 0; str[i]; i++) {
   
		ascii[str[i]]++;
	}
	for (i = 0; i < 256; i++) {
   
		count += (ascii[i] != 0); 
	}
	*characterCount = count;

	attributeList = (ATTRIBUTE *) calloc(sizeof(ATTRIBUTE), count);
	for (i = 0; i < 256; i++) {
   
		if (ascii[i] != 0) {
   
			attributeList[index].character = (u8) i;
			attributeList[index++].frequency = ascii[i];
		}
	}
	return attributeList;
}

str为用户输入的字符串, characterCount为字符种类。因为字符种类在之后的编程中还要用到,所以我直接将它当作一个参数传了进去,这样以后的函数就可以直接使用这个值了。
以上是初始化频度表的内容,既然有初始化,有空间的申请,就必然要有释放。以下为销毁的函数👇

void destoryAttributeList(ATTRIBUTE *attributeList) {
   
	if (NULL == attributeList) {
   
		return;
	}
	free(attributeList);
}

编写到这一步,我建议先写一个显示的函数,以判断其正确性。👇

void showAttributeList(u32 characterCount, ATTRIBUTE *attributeList) {
   
	u32 i;

	for (i = 0; i < characterCount; i++) {
   
		printf("频度:%d 符号:%c\n", attributeList[i].frequency, attributeList[i].character);
	}
}

这样,得到频度表便完成了。

b. 生成哈夫曼树
① 初始化节点

一个二叉树的节点由几个信息构成:该节点存储的数据,其左孩子下标,其右孩子下标,其哈夫曼编码。
在后面生成哈夫曼树的过程中,在找最小频度节点时,我需要知道一个节点是否已经参与了构造,所以我除了以上四个信息,还需要知道这个节点是否被访问过。因此我构造的节点的结构体如下👇

typedef struct HUFMAN_TREE_NODE {
   
	boolean visited;
	u8 *hufmanCode;
	u32 leftChild;
	u32 rightChild;
	ATTRIBUTE attribute;
}HUFMAN_TREE_NODE;

所以在生成哈夫曼树之前,我们需要对结构体进行初始化,即对每个结点的初始化。
以下为初始化节点的函数👇

HUFMAN_TREE_NODE *initHufmanTreeNode(u32 characterCount, u32 *orientate, ATTRIBUTE *attributeList) {
   
	u32 i;
	u32 nodeCount;
	HUFMAN_TREE_NODE *hufmanTreeNode;

	nodeCount = characterCount * 2 - 1;

	hufmanTreeNode = (HUFMAN_TREE_NODE *) calloc(sizeof(HUFMAN_TREE_NODE), nodeCount);

	for (i = 0; i < characterCount; i++) {
   
		hufmanTreeNode[i].visited = FALSE;
		hufmanTreeNode[i].hufmanCode = (u8 *) calloc(sizeof(u8), characterCount);
		hufmanTreeNode[i].leftChild = hufmanTreeNode[i].rightChild = -1;
		hufmanTreeNode[i].attribute = attributeList[i];

		orientate[attributeList[i].character] = i;
	}
	return hufmanTreeNode;
}

根据之前的公式,我们有characterCount个字符,所以生成的节点数有 characterCount * 2 - 1 个。

有一行代码需要注意,在每次循环的末尾。

orientate[attributeList[i].character] = i;

orientate是我在主函数定义的另一个数组。其意为确定方位。我们将一个符号的ASCII码为下标,将其节点的顺序i作为值存储在这个数组中,之后在编码中,我们就可以直接根据一个符号的ASCII码将其信息提取出来了。

u32 orientate[256] = {
   0};

有了初始化,还是和上一个一样,我们需要一个用来释放空间的销毁函数和一个用来判断对错的显示函数。👇

void showHufmanTreeNode(u32 characterCount, HUFMAN_TREE_NODE *hufmanTreeNode) {
   
	u32 i;

	printf("字符  频度  左孩子  右孩子  编码\n");
	for (i = 0; i < characterCount; i++) {
   
		printf("%-5c %-5d %-7d %-7d %-10s\n", 
			hufmanTreeNode[i].attribute.character,
			hufmanTreeNode
  • 15
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
哈夫曼树是一种常用的数据压缩算法,其基本原理是将出现频率较高的字符用较短的编码表示,而出现频率较低的字符用较长的编码表示,这样可以有效地减少数据的存储空间。 以下是基于哈夫曼树的数据压缩算法C语言实现: ```c #include <stdio.h> #include <stdlib.h> #include <string.h> // 定义哈夫曼树节点结构体 typedef struct node { int freq; // 字符频率 char data; // 字符数据 struct node *left, *right; } node; // 定义哈夫曼编码结构体 typedef struct code { char data; // 字符数据 char *code; // 字符编码 } code; // 求取字符在字符串中出现的次数 void get_freq(char *str, int *freq) { int len = strlen(str); for (int i = 0; i < len; i++) { freq[str[i]]++; } } // 创建哈夫曼树 node *create_huffman_tree(int *freq) { node *root = NULL, *left = NULL, *right = NULL; node **nodes = (node **)malloc(sizeof(node *) * 256); for (int i = 0; i < 256; i++) { if (freq[i] != 0) { nodes[i] = (node *)malloc(sizeof(node)); nodes[i]->data = i; nodes[i]->freq = freq[i]; nodes[i]->left = NULL; nodes[i]->right = NULL; } else { nodes[i] = NULL; } } while (1) { int min1 = 256, min2 = 256; for (int i = 0; i < 256; i++) { if (nodes[i] != NULL) { if (nodes[i]->freq < nodes[min1]->freq) { min2 = min1; min1 = i; } else if (nodes[i]->freq < nodes[min2]->freq) { min2 = i; } } } if (min2 == 256) { root = nodes[min1]; break; } left = nodes[min1]; right = nodes[min2]; nodes[min1] = (node *)malloc(sizeof(node)); nodes[min1]->freq = left->freq + right->freq; nodes[min1]->data = 0; nodes[min1]->left = left; nodes[min1]->right = right; nodes[min2] = NULL; } free(nodes); return root; } // 递归求取哈夫曼编码 void get_huffman_code(node *root, char *code, int depth, code *codes, int *idx) { if (root != NULL) { if (root->left == NULL && root->right == NULL) { codes[*idx].data = root->data; codes[*idx].code = (char *)malloc(sizeof(char) * (depth + 1)); strcpy(codes[*idx].code, code); (*idx)++; } else { code[depth] = '0'; code[depth + 1] = '\0'; get_huffman_code(root->left, code, depth + 1, codes, idx); code[depth] = '1'; code[depth + 1] = '\0'; get_huffman_code(root->right, code, depth + 1, codes, idx); } } } // 哈夫曼编码压缩 void huffman_encode(char *str, char *encoded_str, code *codes) { int len = strlen(str), idx = 0; for (int i = 0; i < len; i++) { for (int j = 0; j < 256; j++) { if (codes[j].data == str[i]) { strcat(encoded_str, codes[j].code); idx += strlen(codes[j].code); break; } } } } // 哈夫曼解码 void huffman_decode(char *encoded_str, char *decoded_str, node *root) { int len = strlen(encoded_str), idx = 0; node *p = root; while (idx < len) { if (encoded_str[idx] == '0') { p = p->left; } else { p = p->right; } if (p->left == NULL && p->right == NULL) { decoded_str[strlen(decoded_str)] = p->data; p = root; } idx++; } } int main() { char str[1000], encoded_str[100000], decoded_str[1000]; int freq[256] = {0}; code codes[256]; node *root = NULL; printf("请输入字符串:"); scanf("%s", str); // 计算字符出现频率 get_freq(str, freq); // 创建哈夫曼树 root = create_huffman_tree(freq); // 递归求取哈夫曼编码 char code[256] = {'\0'}; int idx = 0; get_huffman_code(root, code, 0, codes, &idx); // 哈夫曼编码压缩 huffman_encode(str, encoded_str, codes); printf("压缩后的字符串:%s\n", encoded_str); // 哈夫曼解码 huffman_decode(encoded_str, decoded_str, root); printf("解压后的字符串:%s\n", decoded_str); // 释放内存 for (int i = 0; i < 256; i++) { if (codes[i].code != NULL) { free(codes[i].code); } } return 0; } ``` 该程序首先输入需要压缩的字符串,然后计算字符出现频率,创建哈夫曼树,求取哈夫曼编码,对字符串进行压缩解压缩,并输出压缩后的字符串和解压后的字符串。 注意,该程序中使用了动态内存分配,需要注意释放内存以避免内存泄漏。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值