目录
在生产环境中,常用的HIVE存储格式:列式存储的orc和parquet
HIVE压缩格式:冷数据-----gzip压缩(压缩比高,压缩解压缩速度高,不可切割);
非冷数据------lzo(可切割)和snappy(不可切割)
案例:student表存储方式是ORC,压缩方式SNAPPY
create table student (empno int,empname string)
stored as orc
tblproperties("orc.compress"="SNAPPY")
一.HIVE存储格式
存储格式 | 压缩比 | ||
textfile | 文本 | 行存储 | 第4 |
sequence | 二进制 | 行存储 | 第3 |
orc(常用,默认zlib压缩) | 二进制 | 行列存储 | 第1 |
parquet(常用) | 二进制 | 行列存储 | 第2 |
二、HIVE的压缩方式
1)压缩方法比较
压缩格式 | 工具 | 算法 | 文件扩展名 | 是否可切分 |
deflate | 无 | deflate | .deflate | 否 |
gzip | gzip | deflate | .gz | 否 |
bzip2 | bzip2 | bzip2 | .bz2 | 是 |
lzo | lzo | lzo | .lzo |