基于桶排序与哈夫曼编码的英文文档压缩方案（暂未附程序）

最新推荐文章于 2022-12-05 10:36:46 发布

miluroe

最新推荐文章于 2022-12-05 10:36:46 发布

阅读量153

点赞数 1

分类专栏：数据结构与算法文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miluroe/article/details/84659496

版权

数据结构与算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文旨在练习哈夫曼树的创建、遍历方法来生成码表对文字进行压缩。故读仅仅对英文.txt文本进行读取并压缩，生成文档。由于哈夫曼编码压缩是基于统计模型的编码压缩，适用于压缩静态文件流、同时希望元素重复频率高。因此该压缩算法没有推广到对于任意类型文件的压缩。

压缩思路：

英文文档中主要由26个英文字母 (区分大小写)，空格、换行符、常用标点符号、阿拉伯数字组成。不妨将它们看作是标签不同的桶，以便进行大量文本的分类。这样，对于一片篇幅很大的英文文档 (如维克多-雨果的《悲惨世界》：约125万字)，需要建立英文字符、空格、换行符、常用标点符号、阿拉伯数字的数组来记录数组中相应元素出现在文章中的位置。

例如：

Abracadabra.

ArrayList[] A = [0]; ArrayLish[] a = [3, 5, 7, 10]; ArrayList[] b = [1, 8];以此类推。

但是，随着长篇文章的读取，字符的位置数值会越来越大，可以考虑标记相对位置，或按照页数为进行分类标记。

数组建立后，获得数组的长度即为该数组代表的字符出现的频率，将频率进行哈夫曼编码，可根据数组的位置信息将编码填充，得到压缩后的文档。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于桶排序与哈夫曼编码的英文文档压缩方案（暂未附程序）

本文旨在练习哈夫曼树的创建、遍历方法来生成码表对文字进行压缩。故读仅仅对英文.txt文本进行读取并压缩，生成文档。由于哈夫曼编码压缩是基于统计模型的编码压缩，适用于压缩静态文件流、同时希望元素重复频率高。因此该压缩算法没有推广到对于任意类型文件的压缩。压缩思路：英文文档中主要由26个英文字母 (区分大小写)，空格、换行符、常用标点符号、阿拉伯数字组...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。