Hive压缩存储性能测试

最新推荐文章于 2024-04-27 09:49:57 发布

SunnyRivers

最新推荐文章于 2024-04-27 09:49:57 发布

阅读量556

点赞数 1

分类专栏： Hive 文章标签： Hive 压缩性能测试

本文链接：https://blog.csdn.net/android_xue/article/details/103929657

版权

Hive 专栏收录该内容

23 篇文章 3 订阅

订阅专栏

前言

前一篇根据官网对Hive表如何使用压缩格式的数据进行了阐述，不过从Hive编程指南中我们可以看到如下一种建议：
在这里插入图片描述
当然Hive编程指南的中Hive的版本是非常低的，低于0.13版本，因此创建压缩表的方式和前一篇略有不同，不过我们重点不在这，而是，同时使用入ORC、Parquet这种格式，并且采用Gzip、Snappy压缩，这样的性能究竟如何呢？

创建表

TextFile格式:

CREATE TABLE textFile (id INT,name STRING)
PARTITIONED BY ( date STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

Parquet格式：

CREATE TABLE parquet(id INT,name STRING)
PARTITIONED BY ( date STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
STORED AS PARQUET;

Parquet+Snappy压缩

CREATE TABLE snappy(id INT,name STRING)
PARTITIONED BY ( date STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');

加载数据

给textFile表加载数据：

LOAD DATA LOCAL INPATH '/var/lib/hadoop-hdfs/test.gz' INTO TABLE textFile;

给parquet表加载数据：

SET hive.exec.dynamic.partition.mode=nonstrict
SET hive.exec.compress.output=true;
INSERT OVERWRITE TABLE parquet PARTITION(date) SELECT * FROM textFile;

给parquet+snappy压缩表加载数据：

SET hive.exec.dynamic.partition.mode=nonstrict
SET hive.exec.compress.output=true;
INSERT OVERWRITE TABLE snappy PARTITION(date) SELECT * FROM textFile;