Hive使用不同格式压缩后对比

最新推荐文章于 2023-07-04 14:02:55 发布

小猪的博客

最新推荐文章于 2023-07-04 14:02:55 发布

阅读量1k

点赞数

分类专栏： hive 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_32470399/article/details/91958235

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、设置压缩和自动分区

2、创建带压缩的parquet table

3、如果原来创建表的时候没有指定压缩，后续可以通过修改表属性的方式添加压缩

4、数据压缩对比

5、查询除了其中某个字段剩余所有字段

6、SQL查询时间

1、设置压缩和自动分区

set parquet.compression=snappy;
set hive.exec.dynamic.partition=true; 
set hive.exec.dynamic.partition.mode=nonstrict;

2、创建带压缩的parquet table

create table mytable(a int,b int) stored as parquet tblproperties('parquet.compression'='snappy');

3、如果原来创建表的时候没有指定压缩，后续可以通过修改表属性的方式添加压缩

alter table mytable set tblproperties ('parquet.compression'='snappy');

4、数据压缩对比

22.1 M   66.4 M   /user/hive/warehouse/zxd_test.db/etl_user_active_day
7.6 M    22.8 M   /user/hive/warehouse/zxd_test.db/etl_user_active_parquet
5.3 M    16.0 M   /user/hive/warehouse/zxd_test.db/etl_user_active_parquet_snappy
20.1 M   60.3 M   /user/hive/warehouse/zxd_test.db/etl_user_active_rcfile
20.1 M   60.3 M   /user/hive/warehouse/zxd_test.db/etl_user_active_rcfile_snappy
3.2 M    9.6 M    /user/hive/warehouse/zxd_test.db/etl_user_active_orc_snappy
23.3 M   69.9 M   /user/hive/warehouse/zxd_test.db/etl_user_active_sequencefile
23.3 M   69.9 M   /user/hive/warehouse/zxd_test.db/etl_user_active_sequencefile_snappy

5、查询除了其中某个字段剩余所有字段

#由于etl_user_active_day表是分区表，需要将day分区字段排除
set hive.support.quoted.identifiers=None; 
set parquet.compression=snappy; 
insert overwrite table etl_user_active_rcfile_snappy select `(day)?+.+` from etl_user_active_day;

6、SQL查询时间

select count(*) from table;
text ：Time taken: 21.743 seconds, Fetched: 1 row(s)
parquet ：Time taken: 20.855 seconds, Fetched: 1 row(s)
orc : Time taken: 19.951 seconds, Fetched: 1 row(s)
由于数据量小 MapReduce启动都花了10几秒了，但也可以看出 parquet和orc的性能较好

总结：压缩和自动分区都是hive常用的优化手段，既节省空间有提高检索数据

但是为了不改变元数据的分割性，常见的组合压缩是parquet + snappy、orc + snappy。

小猪的博客

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive使用不同格式压缩后对比

目录1、设置压缩和自动分区2、创建带压缩的parquet table3、如果原来创建表的时候没有指定压缩，后续可以通过修改表属性的方式添加压缩4、数据压缩对比5、查询除了其中某个字段剩余所有字段6、SQL查询时间1、设置压缩和自动分区set parquet.compression=snappy;set hive.exec.dynamic.partition...
复制链接

扫一扫