hive orc存储格式不同压缩格式的比较

1.建表语句
无压缩格式 NONE
CREATE EXTERNAL TABLE `test.test_orc_not_compress`(
  `apptypeid` string, 
  `uid` string, 
  `srcqid` string, 
  `os` string, 
  `ver` string, 
  `vers` string, 
  `isnewuser` int, 
  `pv` bigint)
PARTITIONED BY ( 
  `dt` string)
stored AS orc tblproperties("orc.compress" = "NONE");
默认压缩格式 ZLIB
CREATE EXTERNAL TABLE `test.test_orc_not_compress_default`(
  `apptypeid` string, 
  `uid` string, 
  `srcqid` string, 
  `os` string, 
  `ver` string, 
  `vers` string, 
  `isnewuser` int, 
  `pv` bigint)
PARTITIONED BY ( 
  `dt` string)
stored AS orc;
压缩格式 SNAPPY
CREATE EXTERNAL TABLE `test.test_orc_compress`(
  `apptypeid` string, 
  `uid` string, 
  `srcqid` string, 
  `os` string, 
  `ver` string, 
  `vers` string, 
  `isnewuser` int, 
  `pv` bigint)
PARTITIONED BY ( 
  `dt` string)
stored AS orc tblproperties("orc.compress" = "SNAPPY");

注:
stored as orc为orc存储格式
tblproperties(“orc.compress” = “SNAPPY”)为snappy压缩格式

插入同一份数据:
insert overwrite table test.test_orc_not_compress partition(dt)
select 
 *
from dw_center.dwb_open_srcqid_os_vers_user
where dt='20210326';

insert overwrite table test.test_orc_not_compress_default partition(dt)
select 
 *
from dw_center.dwb_open_srcqid_os_vers_user
where dt='20210326';

insert overwrite table test.test_orc_compress partition(dt)
select 
 *
from dw_center.dwb_open_srcqid_os_vers_user
where dt='20210326';
下面我们来看看存储结果:
压缩格式存储格式压缩结果
NONEORC138.2 M
ZLIBORC80.3 M
SNAPPYORC121.6 M
hive> dfs -du -h /usr/hive/warehouse/test.db/test_orc_not_compress;
138.2 M  /usr/hive/warehouse/test.db/test_orc_not_compress/dt=20210326

hive> dfs -du -h /usr/hive/warehouse/test.db/test_orc_not_compress_default;
80.3 M  /usr/hive/warehouse/test.db/test_orc_not_compress_default/dt=20210326

hive> dfs -du -h /usr/hive/warehouse/test.db/test_orc_compress;
121.6 M  /usr/hive/warehouse/test.db/test_orc_compress/dt=20210326

总结:

  1. 默认压缩格式 ZLIB比SNAPPY的压缩比例高,但不常用,综合来说SNAPPY更好,压缩和解压效率都很高。orc+snappy作为生产常用配置
  2. 项目开发中一般使用orc或者parquet格式作为存储格式,列存储,节省空间,做查询可以列裁剪
  • 0
    点赞
  • 1
    收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页
评论

打赏作者

不想起的昵称

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值