1. Hadoop配置压缩算法(Hadoop的配置属性,Hive读取core-site.xml文件中的配置,可以再hive-site.xml中配置以覆盖Hadoop中的配置)
key: io.compression.codecs
value:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec
压缩算法压缩/解压缩的速度与压缩比之间取得一个平衡,
GZip,BZip2的压缩比高,压缩速度相对低;
Snappy,LZO的压缩比低,但是压缩解压缩的速度很高。
BZip2,LZO支持压缩文件分block后的并行处理,而GZip和Snappy则不可以。要使用GZip和Snappy,推荐使用Block压缩的Sequence File
压缩文件是否支持分割?
数据压缩成GZIP,BZIP2,Snappy或者LZO格式后,这个压缩文件如果比较大,比如1G,那么HDFS将它分成10个block(每个block是128M),那么每个分块是否支持
并行处理?
答:
1.
In text files, each line is a record, but these boundaries are obscured by GZip and Snappy.
However, BZip2 and LZO provide block-level compres
【Hive十五】Hive IO相关
最新推荐文章于 2023-05-18 18:01:12 发布
本文介绍了Hive中与IO压缩相关的配置,包括Hadoop的io.compression.codecs属性,以及Hive的hive.exec.compress.intermediate、mapred.map.output.compression.codec等属性。讨论了不同压缩算法如Gzip、BZip2、Snappy和LZO的压缩比和速度,并指出BZip2和LZO支持并行处理。同时,详细阐述了Sequence File的压缩特点,强调其BLOCK压缩的并行处理能力,以及如何在Hive中设置使用Sequence File和Gzip进行块级压缩的步骤。
摘要由CSDN通过智能技术生成