Hive官方使用手册——压缩数据存储格式

压缩数据存储

在某些情况下，将压缩的数据保存在Hive表中比未压缩存储的性能更好;无论是在磁盘使用方面还是在查询性能方面。

您可以将压缩了Gzip或Bzip2的文本文件直接导入到存储为TextFile的表中。压缩会被自动检测，并且在查询执行期间，文件将在运行时被动态解压缩。例如:

 
            CREATE TABLE raw (line STRING) 
           
            ROW FORMAT DELIMITED FIELDS TERMINATED BY  
            '\t'  
            LINES TERMINATED BY  
            '\n' 
            ; 
           
            LOAD DATA LOCAL INPATH  
            '/tmp/weblogs/20090603-access.log.gz'  
            INTO TABLE raw;

表“raw”存储为文本文件，这是默认存储。但是，在这种情况下，Hadoop将不会将您的数据文件分割成chunks/blocks并采用多个map任务并行运行。这可能会导致对集群的“map”能力的利用不足。

推荐的做法是将数据插入到另一个表中，该表存储为SequenceFile。一个SequenceFile可以被Hadoop分割并分布在map作业中，而GZIP文件则不能。例如:

 
            CREATE TABLE raw (line STRING) 
           
            ROW FORMAT DELIMITED FIELDS TERMINATED BY  
            '\t'  
            LINES TERMINATED BY  
            '\n' 
            ; 
           
            CREATE TABLE raw_sequence (line STRING) 
           
            STORED AS SEQUENCEFILE; 
           
            LOAD DATA LOCAL INPATH  
            '/tmp/weblogs/20090603-access.log.gz'  
            INTO TABLE raw; 
           
            SET hive.exec.compress.output= 
            true 
            ; 
           
            SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below) 
           
            INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

io.seqfile.compression.type的取值决定了压缩如何被执行。在进行压缩之前，记录可以分别压缩每个值同时块缓冲区存储会增加到1MB(默认值)。

LZO 压缩

在Hive中使用LZO，请查阅 LZO Compression获取更多信息。
.