文件压缩实现的原理
在计算机系统中,操作系统对数据的读取和存储都是以byte为单位的,对于操作系统来说,这是处理数据的最小单位。但是,作为存储器(内存、硬盘等),它们最小的计量单位是bits,并且1byte=8bits。那么好了,假如我们要在计算机中记录数字1,它只需要占用一个二进制位,也就是一个字节(byte)最右边的1bit。但为了方便计算机对数据的处理,该字节(byte)其它7个二进制位会被用0进行填充。想想看存储这一个数据,真实存储有效数据的空间只是1/8个byte。计算机在存储其它数据时,同样会存在存储空间浪费的情况。这就给数据压缩提供了可能,于是计算机工程师就开发了各种算法,对浪费的存储空间进行“填补”。这样,一个很大的文件就可以被压缩的很小啦。
常见的压缩工具
在Linux系统中,有很多的压缩工具。这些压缩工具因为使用的算法不同,所以在对压缩文件进行解压时,也只能使用对应的压缩工具才能够办到。在Linux中,常见文件名称的附档名和对应的压缩工具有以下几种:
附档名 | 相应工具 |
---|---|
*.Z | compress工具压缩的文件,也可以使用gzip工具解压缩 |
*.gz | gzip工具压缩的文件 |
*.bz2 | bzip2工具压缩的文件 |
*.tar | tar工具打包的文件 |
*.tar.gz或*.tgz | tar工具打包的文件,并使用gzip工具进行了压缩 |
*.tar.bz2 | tar工具打包的文件,并使用bzip2工具进行了压缩 |
compress压缩工具
附档名是*.Z的文件可以使用compress压缩工具进行处理,但是该指令是Linux中早期的指令,已经不是Linux系统中预设的压缩工具了。GNU计划开发了gzip这一工具进行取代compress。所以附档名是*.Z的文件也可以使用gzip进行解压,但是附档名是*.gz的压缩文件不能使用compress解压。
SYNOPSIS:
compress [-dcr] 档案或目录
OPTIONS:
-d:解压缩;
-r:将目录下的档案一同压缩;
-c:将压缩数据输出到standard output,原文件仍然存在。结合数据流重导向操作,将压缩数据重定向到*.back.Z的文件,从而创建备份文件。
gzip压缩工具
SYNOPSIS:
gzip [-cdt#] 文档名
OPTIONS:
无参数:将文档压缩成附档名为.gz的文件,并取代原文件。如图所示:
-c:将压缩数据做标准输出,并保留原文件。可以使用数据重定向保存压缩数据。如图所示:
-d:对压缩文件进行解压缩
-#:压缩等级设置,从-1~-9压缩速度逐渐降低,但压缩比在不断提高,预设的压缩比是-6。如图所示:
-t:检测压缩档案是否有错误。
zcat *.gz:不用解压,就可以直接查看文档内容。如图所示:
bzip2压缩工具
SYNOPSIS:
bzip2 [-cdz#] 文档名
OPTIONS:
无参数:将文档压缩成附档名为.bz2的文件,并取代原文件。如图所示:
-z:将文档压缩成附档名为.bz2的文件,并取代原文件。如图所示:
-d:对压缩文件进行解压缩
-c:将压缩数据做标准输出,并保留原文件。可以使用数据重定向保存压缩数据。如图所示:
-#:压缩等级设置,从-1~-9压缩速度逐渐降低,但压缩比在不断提高。如图所示:
bzcat *.bz2:不解压文档,就可以查看压缩文档的内容。如图所示:
tar打包工具
SYNOPSIS:
tar [-cxtzjvfpPN] 档案或目录
OPTIONS:
参数 | 作用 |
---|---|
-c | 用于建立打包文件,与-f一起使用 |
-x | 用于解开打包文件,与-f一起使用 |
-t | 查看未解包文件中的内容,与-f一起使用。注,在参数组合中-c、-x、-t只能使用其中的一个。 |
-z | 打包文件是否有gzip的属性 |
-j | 打包文件是否具有bzip2的属性 |
-v | 在打包、解包的过程中显示包文件内容 |
-f | 使用档名,在参数组合中f要处在最后位置。紧接着的是自定义的打包后文件名,最后是要打包的原文件名 |
-p | 档案属性不变,使被打包的文件不会根据使用者的身份来改变权限 |
-P | 使用绝对路径来进行压缩和解压 |
-N | 参数后接’年/月/日’,将比该时间早的文件进行打包 |
--exclude filename | 在打包时,不对文件filename进行打包 |
常用组合:
-cvf:只对文件进行打包;
-xvf:对打包文件进行解包;
-tf:在不解包的情况下对包文件中的内容进行查看;
-zcvf:对文件进行打包,并用gzip压缩,常以*.tar.gz、*.tgz为附档名;
-zxvf:对附档名为*.tar.gz、*.tgz的文件进行解包;
-ztf:对附档名为*.tar.gz、*.tgz的未解包文件,直接查看其中的内容;
-jcvf:对文件进行打包,并用bzip2压缩,常以*.tar.bz2为附档名;
-jxvf:对附档名为*.tar.bz2的文件进行解包;
-jtf:对附档名为*.tar.bz2的未解包文件,直接查看其中的内容;
-N ’年/月/日’-zcvf :将晚于该日期的文件进行打包、压缩;
--exclude filename –zcvf:将filename之外的文件进行打包;