常用的几种压缩格式

最近遇到文件压缩文件的问题,顺手查了一下,保存下来,以备以后参考:

目前Linux下常见的压缩文件扩展名:
*.Z        compress程序压缩的文件(最早期使用),压缩后取代源文件;
 *.zip      一个夸平台的文件打包程序,适用于Linux、windows和Mac OS系统;
 *.bz2      bzip2程序压缩的文件;
 *.gz       gzip程序压缩的文件;
 *.tar      tar程序打包的文件,并没有压缩;
 *.tar.gz   tar程序打包的文件,并经过gzip程序的压缩;
 *.tar.bz2  tar程序打包的文件,并经过bzip2程序压缩。

A)*.zip格式是大家最常见的一种,它具有夸操作系统平台性,可以同时在windows、Linux和Mac Os上使用。

大家可以用zip格式压缩那些需要共享给windows用户的文件。压缩与解压.ZIP格式的文件:
[Lee@leedd.Com tmp]$ zip -r test.zip tmp
adding: test/ (stored 0%)
adding: test/data-file (deflated 24%)
adding: test/r (deflated 51%)
下面是如果解压一个zip文档:
[Lee@leedd.Com tmp]$ rm -rf test     #为测试解压,先删除当前目录下的tmp文件
[Lee@leedd.Com tmp]$ unzip  test.zip
Archive:  test.zip
  creating: test/
 inflating: test/data-file
 inflating: test/r
B) 压缩与解压*.tar*、.tar.gz、*.tar.bz2 格式的文件及对比:
Tar是在Linux中使用得非常广泛的文档打包格式。它的好处就是它只消耗非常少的CPU以及时间去打包文件,他仅仅只是一个打包工具,并不负责压缩,压缩是由gzip与bzip2来实现的。因此把*.tar*、.tar.gz、*.tar.bz2 放到一起来举例:
比如我们要把目录/var/tmp下的test目录打包压缩到当前目录
[Lee@leedd tmp]$ tar -cvf   test.tar   test                ### 仅打包,不压缩
[Lee@leedd tmp]$ tar -zcvf  test.tar.gz    test        ### 打包后以gzip压缩
[Lee@leedd tmp]$ tar -jcvf  test.tar.bz2   test        ### 打包后以bzip2压缩
[Lee@leedd tmp]$ ll     test.tar*                        ### 对比压缩后文件大小
-rw-r--r-- 1 Lee mock 10240 01-18 17:05 test.tar
-rw-r--r-- 1 Lee mock   357 01-18 17:06 test.tar.bz2
-rw-r--r-- 1 Lee mock   327 01-18 17:05 test.tar.gz
如何解压缩包:
[Lee@leedd tmp]$ tar -xvf   test.tar
[Lee@leedd tmp]$ tar -xvf   test.tar.gz
[Lee@leedd tmp]$ tar  -jxvf  test.tar.bz2
上面测试中,每次要删除解压后的test文件后解压打其他目录,因为如果不定义解压后目录路径和名字则默认解压到当前目录并以把压缩包名称作为文件夹名字。如果要解压到其他目录(如:/var/tmp/find)则如下:
[Lee@leedd tmp]$ tar  -jxvf  test.tar.bz2  -C  /var/tmp/find
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark常用的数据源格式有以下几种: 1. CSV(逗号分隔值):CSV是一种常见的数据格式,每行数据由逗号分隔。Spark可以通过使用csv()函数加载CSV文件,并将其转化为DataFrame进行处理和分析。 2. JSON(JavaScript对象表示法):JSON是一种轻量级的数据交换格式,具有易于阅读和编写的特点。Spark可以使用json()函数将JSON文件加载成DataFrame。 3. Parquet:Parquet是一种列式存储格式,它能够提供更高的压缩率和更好的查询性能。Spark可以使用parquet()函数加载Parquet文件,并对其进行处理和分析。 4. ORC(Optimized Row Columnar):ORC是一种优化的行列存储格式,它在查询性能和压缩率方面表现优秀。Spark可以使用orc()函数加载ORC文件,并对其进行处理和分析。 5. Avro:Avro是一种数据序列化系统,它使用JSON格式定义数据结构,支持动态模式演化。Spark可以使用avro()函数加载Avro文件,并将其转化为DataFrame进行处理和分析。 6. JDBC(Java数据库连接):Spark可以通过JDBC连接不同类型的关系型数据库,如MySQL、PostgreSQL、Oracle等。可以使用Spark的JDBC连接器读取和写入关系型数据库中的数据。 7. Hadoop文件系统(HDFS):Spark可以直接读取和写入Hadoop分布式文件系统中的文件,如HDFS、S3等。可以使用Spark的文件系统API来操作这些文件。 总之,Spark支持各种常见的数据源格式,可以通过不同的API函数来加载和处理这些数据,以及与其他数据源进行交互。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值