一、
存储格式
hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。
二、压缩格式
三、例子
存储格式 | 优点 | 缺点 |
SEQUENCEFILE | 可压缩可分割二进制文件 | 需要一个合并文件的过程, 且合并后的文件将不方便查看 |
TEXTFILE | 简单 方便查看 | |
RCFILE | 按列查找,理论上对于宽表采用这个比较好 | 比较新,还没有广泛应用 |
二、压缩格式
压缩格式 | 工具 | 算法 | 文件扩展名 | 多文件 | 可分割性 |
DEFLATE* | 无 | DEFLATE | .deflate | 不 | 不 |
Gzip | gzip | DEFLATE | .gz | 不 | 不 |
ZIP | zip | DEFLATE | .zip | 是 | 是,在文件范围内 |
bzip2 | bzip2 | bzip2 | .bz2 | 不 | 是 |
LZO | lzop | LZO | .lzo | 不 | 不 |
三、例子
- CREATE EXTERNAL TABLE src( key string, value string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '5' LINES TERMINATED BY '\n'STORED AS RCFileALTER TABLE src SET SERDEPROPERTIES ('serialization.null.format'='');
- set mapred.reduce.tasks=200;set io.sort.mb=500;set mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;INSERT OVERWRITE TABLE src_bzip2SELECT * FROM src SORT BY key;