本文为自己翻译的译文,原文地址:https://cwiki.apache.org/confluence/display/Hive/CompressedStorage
压缩数据存储
在某些情况下,将压缩的数据保存在Hive表中比未压缩存储的性能更好;无论是在磁盘使用方面还是在查询性能方面。
您可以将压缩了Gzip或Bzip2的文本文件直接导入到存储为TextFile的表中。压缩会被自动检测,并且在查询执行期间,文件将在运行时被动态解压缩。例如:
CREATE TABLE raw (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY
'\t'
LINES TERMINATED BY
'\n'
;
LOAD DATA LOCAL INPATH
'/tmp/weblogs/20090603-access.log.gz'
INTO TABLE raw;
|
表“raw”存储为文本文件,这是默认存储。但是,在这种情况下,Hadoop将不会将您的数据文件分割成chunks/blocks并采用多个map任务并行运行。 这可能会导致对集群的“map”能力的利用不足。
推荐的做法是将数据插入到另一个表中,该表存储为SequenceFile。一个SequenceFile可以被Hadoop分割并分布在map作业中,而GZIP文件则不能。例如:
CREATE TABLE raw (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY
'\t'
LINES TERMINATED BY
'\n'
;
CREATE TABLE raw_sequence (line STRING)
STORED AS SEQUENCEFILE;
LOAD DATA LOCAL INPATH
'/tmp/weblogs/20090603-access.log.gz'
INTO TABLE raw;
SET hive.exec.compress.output=
true
;
SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)
INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;
|
io.seqfile.compression.type的取值决定了压缩如何被执行。在进行压缩之前,记录可以分别压缩每个值同时块缓冲区存储会增加到1MB(默认值)。
LZO 压缩
在Hive中使用LZO,请查阅 LZO Compression获取更多信息。
.