算法#19--霍夫曼压缩(数据压缩)

本文详细介绍了霍夫曼编码的概念,包括前缀码的定义、霍夫曼单词查找树的构建过程,以及数据压缩和解压的原理。通过构建霍夫曼树,实现了对字符出现频率的优化编码,从而实现更高效的数据压缩。同时,文章还提供了压缩和解压的步骤说明。
摘要由CSDN通过智能技术生成

定义

我们现在来学习一种能够大幅压缩自然语言文件空间(以及许多其他类型文件)的数据压缩技术。

它的主要思想是放弃文本文件的普通保存方式:不在使用7位或8位二进制数表示每一个字符,而是用较少的比特表示出现频率高的字符,用较多的比特表示出现频率低的字符。

简而言之,不在用ASCII编码表示,而是用较短的前缀码表示。

前缀码

什么是前缀码?如果所有字符编码都不会成为其他字符编码的前缀,符合这种规则的叫前缀码。

比如,如果A的编码为0,R的编码为00,那么A的编码是R的前缀,这不属于前缀码。那么前缀码的例子是什么样的呢?如下:

所有的前缀码的解码方式都和它一样,是唯一的。因此前缀码被广泛应用于实际生产中。注意,像7位ASCII编码编码这样的定长编码也是前缀码。

霍夫曼单词查找树

表示前缀码的一种简便方法就是使用单词查找树。

任意含有M个空链接的单词查找树都没M个字符定义了一种前缀码方法:我们将空链接替换为指向叶子结点(含有两个空链接的结点)的链接,每个叶子结点都含有一个需要编码的字符。这样,没个字符的编码都是从根结点到该结点的路径表示的比特字符串,其中左链接表示0,右链接表示1.

如果构造这样一棵树?

首先,树的结点包含left和right,和一个字符频率变量freq,以及字符ch。以下为构造一颗霍夫曼单词查找树的过程:

  1. 将需要被编码的字符放在叶子结点中并在每个结点中维护了一个名为freq的实例变量来表示以它为根结点的子树种的所有字符出现的频率。
  2. 创建一片由许多只有一个结点(即叶子结点)的树所组成的森林。每棵树都表示输入流的一个字符,每个结点中的freq表示它在输入流中的出现频率。
  3. 找到两个频率最小的结点,然后创建一个以二者为子结点的新结点(新结点的频率为它的两个子结点的频率之和)。
  4. 不断重复第3过程,最终所有的结点会被合并为一颗单独的单词查找树。

特点:

  • 树的叶子结点包含freq和字符。
  • 频率高的离根结点最近,频率低的在树的底层。
  • 根结点频率值等于输入中的字符数量。
  • 该树表示的编码压缩比其他树更多,是一种最优的前缀码

压缩

对于任意单词查找树,都能产生一张将树中的字符和比特字符串(用由0和1组成的String字符串表示)相对应的编译表。其实就是字符和它的比特字符串的符号表。在这里我们用st[]数字表示。在构造符号表时buildCode()递归遍历整棵树,并为每个结点维护一条从根结点到它的路径所对应的二进制字符串(左链接表示0,右链接表示1)。到达一个叶子结点后,就将结点的编码设为该二进制字符串。如下图的编译表:

然后,压缩就很简单了,只需要在其中找到输入字符所对应的编码即可。

上图字符串ABRACADABRA!的编码为:首先是0(A的编码),然后是111(B的编码),然后是110(R的编码),最后得到完整编码为0111110010110100011111001010.

解压

首先readTrie()将霍夫曼单词查找树编码为的比特流构造为霍夫曼查找树。然后读取霍夫曼压缩码,根据该编码从根结点向下移动(读取一个比特,为0移动到左结点,为1移动到右结点)。当遇到叶子结点后,输出该结点的字符并重新回到根结点。

例如压缩ABRACADABRA!后的编码为:0111110010110100011111001010,其单词查找树的比特流为:01010000010010100010001001000011010000110101010010101000010。

首先由树的比特流构造霍夫曼查找树(得如下树),然后解码编码。第一个为0,所以移动到左子结点,输出A;回到根,然后连续三个1,即向右移动3次,输出B;回到根,然后两个1,一个0,即向右移动两次,向左移动一次,输出R。如此重复,最后得到ABRACADABRA!

实现代码


/**
 * 霍夫曼压缩
 * @author nicholas.tang
 *
 */
public class Huffman
1. 霍夫曼编码实现 首先,需要定义霍夫曼编码的数据结构: ```matlab classdef HuffNode < handle % HuffNode: 霍夫曼编码中的节点类 properties value % 节点权值 left % 左子节点 right % 右子节点 end methods function obj = HuffNode(value, left, right) % 构造函数 obj.value = value; obj.left = left; obj.right = right; end end end ``` 接下来,实现霍夫曼编码的主要算法: ```matlab function [code, dict] = huffman_encode(data) % HUFFMAN_ENCODE: 对数据进行霍夫曼编码 % % 输入参数: % - data: 待编码的数据,为一维向量 % % 输出参数: % - code: 编码后的数据,为一维向量 % - dict: 编码字典,为一个结构体,包含每个符号的编码 % 统计每个符号出现的频率 symbols = unique(data); freqs = hist(data(:), symbols); % 构建霍夫曼编码树 nodes = {}; for i = 1:length(symbols) nodes{i} = HuffNode(freqs(i), symbols(i), []); end while length(nodes) > 1 [freqs, idxs] = sort(cellfun(@(x) x.value, nodes)); node1 = nodes{idxs(1)}; node2 = nodes{idxs(2)}; nodes{idxs(1)} = HuffNode(freqs(1) + freqs(2), node1, node2); nodes(idxs(2)) = []; end % 构建编码字典 dict = struct(); traverse(nodes{1}, ''); % 对数据进行编码 code = ''; for i = 1:length(data) code = strcat(code, dict.(num2str(data(i)))); end % 辅助函数:遍历霍夫曼编码树,构建编码字典 function traverse(node, code) if ~isempty(node.left) traverse(node.left, strcat(code, '0')); traverse(node.right, strcat(code, '1')); else dict.(num2str(node.value)) = code; end end end ``` 2. JPEG图像压缩实现 接下来,实现JPEG图像压缩算法: ```matlab function [compressed, dict] = jpeg_compress(img, quality) % JPEG_COMPRESS: 对图像进行JPEG压缩 % % 输入参数: % - img: 待压缩的图像矩阵,为一个 H*W*C 的三维矩阵,其中 H、W 为图像的高和宽,C 为颜色通道数 % - quality: 压缩质量,取值范围为 0-100,值越小,压缩比越高,图像质量越低 % % 输出参数: % - compressed: 压缩后的数据,为一个结构体,包含压缩后的图像数据和相关信息 % - dict: 霍夫曼编码字典,为一个结构体,包含每个符号的编码 % 将图像转换为YCbCr颜色空间 img_ycbcr = rgb2ycbcr(img); % 对每个8x8的小块进行处理 [height, width, ~] = size(img_ycbcr); blocks = zeros(height/8, width/8, 3, 8, 8); for i = 1:height/8 for j = 1:width/8 blocks(i, j, :, :, :) = img_ycbcr((i-1)*8+1:i*8, (j-1)*8+1:j*8, :); end end % 对每个小块进行离散余弦变换(DCT) dct_blocks = zeros(size(blocks)); for i = 1:size(blocks, 1) for j = 1:size(blocks, 2) for k = 1:size(blocks, 3) dct_blocks(i, j, k, :, :) = dct2(squeeze(blocks(i, j, k, :, :))); end end end % 对DCT系数进行量化 q_table = [16 11 10 16 24 40 51 61; 12 12 14 19 26 58 60 55; 14 13 16 24 40 57 69 56; 14 17 22 29 51 87 80 62; 18 22 37 56 68 109 103 77; 24 35 55 64 81 104 113 92; 49 64 78 87 103 121 120 101; 72 92 95 98 112 100 103 99]; quant_blocks = zeros(size(dct_blocks)); for i = 1:size(dct_blocks, 1) for j = 1:size(dct_blocks, 2) for k = 1:size(dct_blocks, 3) quant_blocks(i, j, k, :, :) = round(squeeze(dct_blocks(i, j, k, :, :)) ./ (q_table * quality)); end end end % 对量化后的DCT系数进行霍夫曼编码 data = reshape(quant_blocks, [], 1); [compressed.data, dict] = huffman_encode(data); % 将压缩后的数据保存到结构体中 compressed.height = height; compressed.width = width; compressed.quality = quality; compressed.dict = dict; % 辅助函数:将压缩后的数据解码为量化后的DCT系数 function quant_blocks = decode(compressed) data = huffman_decode(compressed.data, compressed.dict); quant_blocks = reshape(data, size(dct_blocks)); end end ``` 注意,以上代码中使用了一个辅助函数`huffman_decode`,可以参考霍夫曼编码的实现方法进行编写。同时,还需要实现解码算法,对压缩后的数据进行解码,还原成原始图像。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值