hive的数据压缩格式和存储格式

最新推荐文章于 2024-10-08 08:46:34 发布

Autumn_tears

最新推荐文章于 2024-10-08 08:46:34 发布

阅读量746

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Autumn_tears/article/details/108133674

版权

1.Textfile：Hive数据表的默认格式

可以使用Gzip压缩算法，但压缩后的文件不支持split

2.SEQUENCEFILE

Sequence File是可分割的文件格式，支持Hadoop的block级压缩。

3.RCFILE

数据按行分块，每块按列存储

4.ORCFILE

数据按行分块，每块按照列存储

1.gzip压缩

不支持split，当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式

2.zlib压缩

支持orcfile格式，性能比gzip略高

3.lzo压缩

支持split，是hadoop中最流行的压缩格式，hadoop本身不支持，需要安装

应用场景：一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越越明显。

4.snappy压缩

不支持split，hadoop本身不支持

应用场景：当mapreduce作业的map输出的数据比较大的时候，作为map到reduce的中间数据的压缩格式；或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

5.bzip2压缩

支持split，hadoop本身支持

应用场景：适合对速度要求不高，但需要较高的压缩率的时候

系统采用ORCFILE存储格式（RCFILE升级版），压缩算法采用orc支持的ZLIB和SNAPPY

ODS（DWD）数据源层，因为数据量较大，可以采用orcfile+ZLIB的方式，以节省磁盘空间

在计算的过程中（DWD、DWM、DWS、APP），为了不影响执行的速度，可以浪费一点磁盘空间，采用orcfile+SNAPPY的方式，提升hive的执行速度。DWD明细层根据业务的需要，灵活选用ZLIB或SNAPPY。

ODS层是原始数据，一般不允许修改，所以使用外部表保证数据的安全性，避免误删除；

DW和APP层是统计数据，为了使覆盖插入等操作更方便，满足业务需求的同时，提高开发和测试效率，推荐使用内部表。

注意，设置ORC压缩格式前一定要先设置hive.exec.orc.compression.strategy，否则压缩不生效：

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。