linux打包文件恢复,修复损坏的gz或tar.gz压缩文件之原理篇

最新推荐文章于 2023-12-13 16:00:08 发布

Feng.HE

最新推荐文章于 2023-12-13 16:00:08 发布

阅读量2k

点赞数

文章标签： linux打包文件恢复

引言：UNIX/LINUX下大多数都是用gzip格式来做文件的压缩方案的，而gzip文件损坏的情况也屡见不鲜，常见的有遇到坏扇区、压缩进程io阻塞，或恢复后的压缩文件被破坏等。因近期有做关于gzip文件的修复研究，特分为三个篇章对此成果进行表述，分别为原理篇，方法篇，案例篇。此为第一部分原理篇。

gzip的压缩算法本质上是deflate(zip也几乎都用)，这个算法其实是由LZ77算法加上一个变形的哈夫曼编码组成的。大概算法流程是：”原始数据--->LZ77--->哈夫曼 “这三个步骤。因啥夫曼树仍有可能进行压缩，所以，实质上的算法流程是：”原始数据--->LZ77--->(哈夫曼树->CL压缩) “

先来聊聊“原始数据--->LZ77”这一层的思想。LZ77的详细算法见相关文档，本文不做赘述，仅描述涉及本文主题的一些思想。本质上看，LZ77是基于对连续重复的字节片断用指向的方式表示来实现压缩。比如：有句英文叫business is business，为了简化这个句子(注意有空格)，我们用business is (12,8)来表示，意思是括号内的数字并非原始数据，而是代表从当前位置向前12个字节，并且连续了8个字节的那段文字。这样一来，文字部分就变得简短了。当然，我们一定会注意到，对于每个句子，要额外有信息表示到底是原始数据，还是指针类的数据。所以，整个压缩后的数据，由三类不同的信息元素组成：本来就是这样的文字、指向的位置，指向的长度，这三个元素即是lz77算法中的literal、distance和length。

给定任何一段字节流，如果使用LZ77算法进

最低0.47元/天解锁文章

Feng.HE

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
linux打包文件恢复,修复损坏的gz或tar.gz压缩文件之原理篇

引言：UNIX/LINUX下大多数都是用gzip格式来做文件的压缩方案的，而gzip文件损坏的情况也屡见不鲜，常见的有遇到坏扇区、压缩进程io阻塞，或恢复后的压缩文件被破坏等。因近期有做关于gzip文件的修复研究，特分为三个篇章对此成果进行表述，分别为原理篇，方法篇，案例篇。此为第一部分原理篇。gzip的压缩算法本质上是deflate(zip也几乎都用)，这个算法其实是由LZ77算法加上一个变形的...
复制链接

扫一扫