基于哈夫曼编码的文件压缩项目(1),2024年最新大数据开发开发必须掌握


一、什么是文件压缩

文件压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对文件中数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

二、为什么要压缩文件

  1. 紧缩数据存储容量,减少存储空间
  2. 可以提高数据传输的速度,减少带宽占用量,提高通讯效率
  3. 对数据的一种加密保护,增强数据在传输过程中的安全性

三、压缩的分类

1、有损压缩

有损压缩是利用了人类对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像的影响缩小,却换来了大得多的压缩比,即指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解

2、无损压缩

对文件中数据按照特定的编码格式进行重新组织,压缩后的压缩文件可以被还原成与源文件完全相同的格式,不会影响文件内容,对于数码图像而言,不会使图像细节有任何损失。

四、怎么实现文件压缩

而对于文件的压缩,常用的方式有:

1、专有名词采用的固定短语
2、缩短文件中重复的数据
3、给文件中每个字节找一个更短的编码

其中,给文件中每个字节找一个更短的编码这种方式较为常用。因为,文件中的数据在磁盘中都是以字节的方式来进行存储的,一个字节占用8个比特位,如果能够给一个字节找到更短的编码,即少于8个比特位,就可以起到压缩的目的,编码一般分为:静态等长编码和动态不等长编码。

比如:ABBBBCCCCCDDDDDDD字符串。

1、静态等长编码

文件中共有4个不同种类的字符,因为每个字符可以用两个二进制的比特位表示。

字符编码
A00
B01
C10
D11

用等长编码对上述源数据进行压缩:01101110 11110111 11100011 10011110,压缩完成后的结果只占4个字节,压缩率还是比较高的。

该种压缩方式一般要求文件中字符种类比较少,但是一般情况下文件中字节的种类是比较多的。

2、动态不等长编码

根据文件中字节的分布情况获取每个字节的编码。

字符编码
A100
B101
C11
D0

使用不等长编码对源数据进行压缩:10111011 00101001 11000111 01011

压缩完成后最后一个字节没有用完,还剩余3个比特位,对于该文件中内容,动态不等长编码方式比等长编码方式的压缩率能好点。

上述动态不等长编码有一种方式可以简单获取到,huffman树。

五、创建Huffman树

1.哈夫曼编码的方式

前面介绍用不等长编码的方式来对文件进行改写,但这些编码是怎么来的呢?为什么A:100 ,B:101, C:11, D:0。这种编码方式是通过哈夫曼树来进行编排的:

2.构建一棵哈夫曼树

知道了哈夫曼编码的方式之后,到底该如何构建一棵哈夫曼树呢?
从二叉树的根结点到二叉树中所有叶结点的路径长度与相应权值的乘积之和为该二叉树的带权路径长度WPL,将带权路径最小的二叉树称为Huffman树。
下图展示了哈夫曼树的构建方法:

二叉树的构建代码如下:

// 二叉树节点
template
struct HuffmanTreeNode
{
HuffmanTreeNode* _left;
HuffmanTreeNode* _right;
HuffmanTreeNode* _parent;
T _weight;

HuffmanTreeNode(const T& weight = T())
:_left(nullptr)
,_right(nullptr)
,_parent(nullptr)
,_weight(weight)
{}
};

template
class HuffmanTree
{
typedef HuffmanTreeNode Node;
public:

class Compare
{
public:
// 优先级队列中元素大小按降序排列
bool operator()(const Node* left, const Node* right)
{
return left->_weight > right->_weight;
}
};

HuffmanTree()
:_root(nullptr)
{}

HuffmanTree(const vector& vw, const W& invaild)
{
// 使用节点权值构建二叉树节点(只有根节点的二叉树森林)
// 使用堆(优先级队列)来储存这些二叉树森林
std::priority_queue<Node*, vector<Node*>, Compare> q;
for (auto e : vw)
{
// 当字符出现次数不为0时,插入队列
if (e != invaild)
{
q.push(new Node(e));
}
}

while (q.size() > 1)
{
// 取出两个队列顶部元素作为左右两子树
Node* left = q.top();
q.pop();

Node* right = q.top();
q.pop();

// 将left和right作为新节点的左右字数
Node* parent = new Node(left->_weight + right->_weight);

// 链接父节点和左右子节点
parent->_left = left;
left->_parent = parent;

parent->_right = right;
right->_parent = parent;

// 将新节点重新放入二叉树森林中
q.push(parent);
}
_root = q.top();
}

~HuffmanTree()
{
Destroy(_root);
}

private:
void Destroy(Node* root)
{
if (root)
{
Destroy(root->_left);
Destroy(root->_right);
delete root;
root = nullptr;
}
}

private:
Node* _root;
};

六、文件压缩

压缩过程需要要经过四个步骤:

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

712570978224)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-VtyfP1nI-1712570978225)]

  • 18
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值