1.Textfile:Hive数据表的默认格式
可以使用Gzip压缩算法,但压缩后的文件不支持split
2.SEQUENCEFILE
Sequence File是可分割的文件格式,支持Hadoop的block级压缩。
3.RCFILE
数据按行分块,每块按列存储
4.ORCFILE
数据按行分块,每块按照列存储
1.gzip压缩
不支持split,当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式
2.zlib压缩
支持orcfile格式,性能比gzip略高
3.lzo压缩
支持split,是hadoop中最流行的压缩格式,hadoop本身不支持,需要安装
应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。
4.snappy压缩
不支持split,hadoop本身不支持
应用场景:当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。
5.bzip2压缩
支持split,hadoop本身支持
应用场景:适合对速度要求不高,但需要较高的压缩率的时候
系统采用ORCFILE存储格式(RCFILE升级版),压缩算法采用orc支持的ZLIB和SNAPPY
ODS(DWD)数据源层,因为数据量较大,可以采用orcfile+ZLIB的方式,以节省磁盘空间
在计算的过程中(DWD、DWM、DWS、APP),为了不影响执行的速度,可以浪费一点磁盘空间,采用orcfile+SNAPPY的方式,提升hive的执行速度。DWD明细层根据业务的需要,灵活选用ZLIB或SNAPPY。
ODS层是原始数据,一般不允许修改,所以使用外部表保证数据的安全性,避免误删除;
DW和APP层是统计数据,为了使覆盖插入等操作更方便,满足业务需求的同时,提高开发和测试效率,推荐使用内部表。
注意,设置ORC压缩格式前一定要先设置hive.exec.orc.compression.strategy,否则压缩不生效: