HiveSQL一天一个小技巧：使用TextFile格式可以直接使用gzip或bzip2压缩

最新推荐文章于 2022-08-07 17:00:12 发布

莫叫石榴姐

最新推荐文章于 2022-08-07 17:00:12 发布

阅读量2.6k

点赞数

分类专栏： hive HiveSql面试题文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godlovedaniel/article/details/121604661

版权

HiveSql面试题同时被 2 个专栏收录

98 篇文章 118 订阅

订阅专栏

40 篇文章 15 订阅

订阅专栏

数据压缩存储

可以将使用Gzip或Bzip2压缩的文本文件直接导入存储为TextFile的表中。压缩将被自动检测到，并且文件将在查询执行期间实时解压缩. 例如:

CREATE TABLE raw (line STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';

LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTO TABLE raw;

表raw采用的是hive默认存储方式TextFile,但是这种情况下，hadoop不能将文件切分成块，并通过多个并行的map去运行，这样会导致集群的并行能力未充分利用。推荐的做法是将数据插入另一个表中，该表存储为SequenceFile。SequenceFile可以被Hadoop分割，并分布到各个map作业中，而GZIP文件则不能，GZIP是不可分割的文件。例如

CREATE TABLE raw (line STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';

CREATE TABLE raw_sequence (line STRING)

STORED AS SEQUENCEFILE;

LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTO TABLE raw;

SET hive.exec.compress.output=true;

SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)

INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

type的值决定了如何执行压缩。Record单独压缩每个值，而BLOCK在压缩前缓冲1MB(默认)。

莫叫石榴姐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HiveSQL一天一个小技巧：使用TextFile格式可以直接使用gzip或bzip2压缩

数据压缩存储可以将使用Gzip或Bzip2压缩的文本文件直接导入存储为TextFile的表中。压缩将被自动检测到，并且文件将在查询执行期间实时解压缩. 例如: CREATE TABLE raw (line STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-acc...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。