【Hive十五】Hive IO相关

本文介绍了Hive中与IO压缩相关的配置,包括Hadoop的io.compression.codecs属性,以及Hive的hive.exec.compress.intermediate、mapred.map.output.compression.codec等属性。讨论了不同压缩算法如Gzip、BZip2、Snappy和LZO的压缩比和速度,并指出BZip2和LZO支持并行处理。同时,详细阐述了Sequence File的压缩特点,强调其BLOCK压缩的并行处理能力,以及如何在Hive中设置使用Sequence File和Gzip进行块级压缩的步骤。
摘要由CSDN通过智能技术生成

1. Hadoop配置压缩算法(Hadoop的配置属性,Hive读取core-site.xml文件中的配置,可以再hive-site.xml中配置以覆盖Hadoop中的配置)
key: io.compression.codecs
value:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec

压缩算法压缩/解压缩的速度与压缩比之间取得一个平衡,
GZip,BZip2的压缩比高,压缩速度相对低;
Snappy,LZO的压缩比低,但是压缩解压缩的速度很高。
BZip2,LZO支持压缩文件分block后的并行处理,而GZip和Snappy则不可以。要使用GZip和Snappy,推荐使用Block压缩的Sequence File

压缩文件是否支持分割?
数据压缩成GZIP,BZIP2,Snappy或者LZO格式后,这个压缩文件如果比较大,比如1G,那么HDFS将它分成10个block(每个block是128M),那么每个分块是否支持
并行处理?

答:
1.
In text files, each line is a record, but these boundaries are obscured by GZip and Snappy.
However, BZip2 and LZO provide block-level compres

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值