HIVE的压缩和存储格式

目录

2)压缩性能比较

3)开启MAP输出阶段压缩

4)开启REDUCE输出阶段压缩,比map端压缩事儿多

四.查看HADOOP支持哪些编解码

 五、hive文件压缩在两处设置

六、存储格式和压缩格式可结合使用


在生产环境中,常用的HIVE存储格式:列式存储的orc和parquet

HIVE压缩格式:冷数据-----gzip压缩(压缩比高,压缩解压缩速度高,不可切割);

                          非冷数据------lzo(可切割)和snappy(不可切割)

案例:student表存储方式是ORC,压缩方式SNAPPY

create table student (empno int,empname string)

stored as orc

tblproperties("orc.compress"="SNAPPY")

一.HIVE存储格式

存储格式 压缩比
textfile 文本 行存储 第4
sequence 二进制 行存储 第3
orc(常用,默认zlib压缩 二进制 行列存储 第1
parquet(常用 二进制 行列存储 第2

二、HIVE的压缩方式

1)压缩方法比较 

压缩格式 工具 算法 文件扩展名 是否可切分
deflate deflate .deflate
gzip gzip deflate .gz
bzip2 bzip2 bzip2 .bz2
lzo lzo lzo .lzo
snappy
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值