Hive入门之基础知识（四）之文件格式和压缩方法

最新推荐文章于 2022-07-11 22:37:25 发布

vegetable chicken01

最新推荐文章于 2022-07-11 22:37:25 发布

阅读量378

点赞数

分类专栏： hive 文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiangzhiqi4551/article/details/103602294

版权

hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

为什么使用压缩

使用压缩可以减小所需的磁盘空间，减小磁盘和网络的IO操作，减小了载入内存的数据量提高了IO吞吐量，提升了网络性能（因为MapReduce大多是文件读写操作，属于IO密集型）。

几种不同的压缩方案

如果磁盘利用率和IO开销都需要考虑的话，可以选择以下两种

BZip2

压缩率最高，同时需要消耗最多的CPU开销。

GZip

压缩率 / 压缩、解压速度的最佳选择

LZO 和 Snappy

压缩率不及上面的两种，但是压缩和解压的速度更快，特别是在解压过程。
如果需要频繁读取数据进行解压缩，可以使用LZO或者Snappy。

此外，需要注意的一点是GZip和Snappy的压缩文件不可划分。即MapReduce无法将输入的文件划分为多个部分，如果文件特别大，就需要一个单独task来进行处理。

中间压缩

开启中间压缩可以减少map和reduce之间的数据传输量。
对于中间压缩，低CPU开销比最终的压缩效率更为重要。

set hive.exec.compress.intermediate = true // 开启中间压缩，默认为false

sequence file存储格式

sequence file是含有键值对的二进制文件。

对于不可分割的压缩文件，最严重的的缺点就是只能从头读到尾，无法由多个mapper并行执行。

而sequence file存储格式可以将一个文件分为多块，然后采取可分割的方式对块进行压缩。
创建表时可以直接指定sequence file格式：

CREATE TABLE tmp
(
user_id STRING
)
STORED AS SEQUENCEFILE

sequence file提供了三种压缩方式：NONE， RECORD， BLOCK 。
默认为RECORD级，不过通常来说BLOCK级压缩性能最好。

vegetable chicken01

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。