一文了解的Linux打包工具tar,还有压缩工具zip

一、压缩介绍

        现在这个时代电子信息发展迅猛,数据量越来越庞大,小米10手机摄像头技术都达到1亿像素;2021年9月,三星甚至提出2亿像素的传感器技术。因此,压缩数据成为数据存储和传输中用于降低成本和时间的关键技术。

 

2亿像素的ISOCELL HP1,5000万像素的ISOCELL GN5

        压缩技术又分为有损压缩与无损压缩两类,两者的主要区别是:有损压缩还原时跟原始信息不是完全一样,但是不影响使用,比如音频、图片、视频类信息;无损压缩还原时跟原始信息完全一样,比如本文要介绍的常用压缩软件RAR,Zip等压缩方法。

         Windows下比较熟知的压缩方法有zip或者RAR,为了便于压缩与解压的使用,开发了许多的解压缩软件,比如:winrar、好压、快压、360压缩等。但是在Linux比较常用的压缩方法却是gzip、bzip2、compress等,比如官方下载的gcc编译器源码压缩文件就是基于gzip压缩的:gcc-11.2.0.tar.gz。

 打包或者压缩格式很多,目前主流使用的有如下表所示几种:

                                                         表一

                                                 表二

        对于表二类似“xxx.tar.gz”等格式的文件,是Linux下的一种文件格式,生成该格式文件分为两个步骤,(1)、xxx文件打包为xxx.tar;(2)、xxx.tar压缩为xxx.tar.gz。下面大概介绍Linux下tar打包与gz、bz2等压缩工具的使用。

二、Linux打包tar

        由于Linux中的很多压缩程序只能针对一个文件进行压缩,因此如果包含许多文件,则需要将所有文件打包为一个文件,然后再压缩。

         Linux下最常用的打包程序就是tar,使用tar程序打出来的包我们常称为tar包,tar包文件的扩展名通常是.tar。生成tar包后,就可以用其它的程序(gzip或bzip2等)来进行压缩了。

2.1、tar文件结构

        Tar指令只用于多文件打包,并不压缩文件,因此打包后的文件并没有减小,反而由于在打包时会在每个文件头加入512字节的tar头部信息,使得打包后的文件略微变大。比如当前有文件a1.c、a2.c、a3.c,每个文件100k,打包后文件的文件结构如下图所示:

         如上图所示,3个文件共300k,通过tar打包后,至少为301.5k;因为tar文件是按块存储,每个块为512bytes大小,所以tar文件大小应该为512字节的倍数,如果a1.c文件大小为99.7k,则通过tar打包时,最后0.3k必须填充为0,补足至100k(满足512字节的倍数)。

2.2、tar_header头部结构

        tar_header为512字节的块结构,保存后面的文件信息,tar源码的tar.h文件中该header结构如下图所示,该header结构刚好是一个块大小,即512字节每个块。

 tar源码版本为“tar-1.26.tar.gz”,可通过以下网盘链接下载:

链接:https://pan.baidu.com/s/1T34dYxBRWKYE8jmFvv_2aw

提取码:ppw2

tar打包函数入口为create_archive(),在源码文件create.c中。

2.3、tar命令打包

        tar 命令用于打包操作时,该命令的基本格式为:tar [选项] 源文件或目录。tar命令常用的选项及各自的含义如下图所示。

 (1)、创建2个文件a1.txt、a2.txt,分别输入如下内容:

 (2)、tar命令进行打包,生成aTar.tar打包文件

2.4、aTar.tar文件内容分析

        通过UltraEdit打开上面tar命令打包生成的aTar.tar文件,可以看到aTar.tar文件格式为:首先是a1.txt的tar_header信息,然后是a1.txt的内容;接着是a2.txt的tar_header信息,然后是a2txt的内容。

(1)、第一块:从地址0x00000000h位置到0x00000200h之间(共512字节)是a1.txt的tar_header信息:

 根据如上结构struct posix_header结构体的定义,说明几个字段含义:

a>、最开始的位置存储name,大小为100字节,内容为61 31 2E 74 78 74 00,即为“a1.txt”;

b>、后面是mode字段内容为30 30 30 30 36 34 34 00,即为“0000644”,表示a1.txt文件的操作权限,与ls命令查询a1.txt文件权限一致。

c>、uid、gid信息,即当前linux登录用户id与组id,这两个id的内容均为30 30 30 31 37 35 30 00,即为“0001750”,该值为八进制,转为十进制为1000,与id命令查询的结果一致。

d>、size字段值为30 30 30 30 30 30 30 30 30 33 33 00,即为“00000000033”,该值为八进制,转为十进制为27,表示a1.txt文件大小为27字节,与文件内容大小一致:

 e>、magic字段值为75 73 74 61 72 20,即为“ustar”,表示当前包为tar文件;

 f>、uname与gname为当前linux登录用户名与组名,即kevin。

(2)、第二块:从地址0x00000200h位置到0x00000400h之间(共512字节)是a1.txt的内容,虽然a1.txt的内容为27字节,但是块大小为512,不足地方补0。

 (3)、第三块:从地址0x00000400h位置到0x00000600h之间(共512字节)是a2.txt的tar_header信息:

 a2.txt的tar_header信息格式与a1.txt的tar_header一致,其size字段为“00000000025”,转为十进制为21,表示a2.txt内容为21个字符,确认一致。

 (4)、第四块:从地址0x00000600h位置到0x00000800h之间(共512字节)是a2.txt的内容,虽然a2.txt的内容为21字节,但是块大小为512,不足地方补0。

注:以上与“2.1、tar文件的结构一致”!!!

 三、Linux压缩之gz、bz2、z格式

        Linux下文件压缩属于无损压缩,解压缩还原时必须和原文件一致,否则会导致程序运行错误;其基本原理为,通过查找文件内的重复字节,建立一个相同字节的词典文件,并用一个代码表示。比如如下文件:

 重复的字符串“小扇子的笔记”可以用一个代码“a”表示,则文件内容可以表示为:

 这文件的大小就缩小了,还原回来也是无信息损失的。

        当然压缩算法远比这个复杂,Linux下的压缩工具常用的有GNU组织开发的gzip(.gz)、压缩能力更强的bzip2(.bz2)、比较古老的压缩指令compress(.Z)、以及最新的提供最佳压缩率的XZ(.xz)。

         这些压缩命令只能用来压缩文件,不能压缩目录,即便指定了目录,也只能压缩目录内的所有文件;同时只能压缩单个文件,因此通常与tar打包命令一起使用,在tar打包命令中加入如下选项即可调用对应的压缩命令进行压缩:

 3.1、gzip压缩

在tar指令中加入‘-z’选项,调用gzip进行压缩。

 解压缩命令为:tar –xzf a.tar.gz。

3.2、bzip2压缩

在tar指令中加入‘-j’选项,调用bzip2进行压缩。

 解压缩命令为:tar –xjf a.tar.bz2。

3.3、xz压缩

在tar指令中加入‘-J’选项,调用xz进行压缩。

 解压缩命令为:tar –xJf a.tar.xz。

3.4、compress压缩

现在新的Linux系统都没有安装ncompress压缩工具,需要先安装:

 然后在tar指令中加入‘-Z’选项,调用compress进行压缩。

 解压缩命令为:tar –xZf a.tar.Z。

3.5、其他压缩工具

Windows下常用的压缩格式zip与rar在Linux下也是支持的。

(1)、Linux下提供了zip和unzip程序,zip是压缩程序,unzip是解压程序;

(2)、linux下处理.rar文件,需要安装RAR for Linux,如下指令:
# tar -xzpvf rarlinux-3.2.0.tar.gz
# cd rar
# make
  安装后有rar和unrar这两个程序,rar是压缩程序,unrar是解压程序。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值