hive的数据压缩格式和存储格式

1.Textfile:Hive数据表的默认格式

可以使用Gzip压缩算法,但压缩后的文件不支持split

2.SEQUENCEFILE

Sequence File是可分割的文件格式,支持Hadoop的block级压缩。

3.RCFILE

数据按行分块,每块按列存储

4.ORCFILE

数据按行分块,每块按照列存储

 

 

1.gzip压缩

不支持split,当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式

2.zlib压缩

支持orcfile格式,性能比gzip略高

3.lzo压缩

支持split,是hadoop中最流行的压缩格式,hadoop本身不支持,需要安装

应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。

4.snappy压缩

不支持split,hadoop本身不支持

应用场景:当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

5.bzip2压缩

支持split,hadoop本身支持

应用场景:适合对速度要求不高,但需要较高的压缩率的时候

 

系统采用ORCFILE存储格式(RCFILE升级版),压缩算法采用orc支持的ZLIB和SNAPPY

ODS(DWD)数据源层,因为数据量较大,可以采用orcfile+ZLIB的方式,以节省磁盘空间

在计算的过程中(DWD、DWM、DWS、APP),为了不影响执行的速度,可以浪费一点磁盘空间,采用orcfile+SNAPPY的方式,提升hive的执行速度。DWD明细层根据业务的需要,灵活选用ZLIB或SNAPPY。

 

ODS层是原始数据,一般不允许修改,所以使用外部表保证数据的安全性,避免误删除;

DW和APP层是统计数据,为了使覆盖插入等操作更方便,满足业务需求的同时,提高开发和测试效率,推荐使用内部表

 

注意,设置ORC压缩格式前一定要先设置hive.exec.orc.compression.strategy,否则压缩不生效:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值