Hive存储优化之Cluster By + Parquet

最新推荐文章于 2024-07-29 09:03:07 发布

木给哇啦丶

最新推荐文章于 2024-07-29 09:03:07 发布

阅读量477

点赞数 1

分类专栏： hive 数据仓库文章标签： hive 大数据

本文链接：https://blog.csdn.net/lquarius/article/details/107285285

版权

本文探讨了在大数据业务场景下，如何通过Hive的Cluster By语句结合Parquet列存储格式，优化数据存储，实现更高的压缩比。介绍了Distribute By、Sort By和Cluster By的基础知识，并提供了优化示例。

摘要由CSDN通过智能技术生成

场景：

在业务场景中，会经常有join或者group by操作，这样会使数据打散，使Parquet无法达到最大的压缩比，使用Cluster By使相同的key聚合排序，达到Parquet最大的压缩比

基础知识：要熟悉以下概念，简单介绍一下

Distribute By：reduce阶段key值聚合分发

Sort By：分组排序

Cluster By = Distribute By + Sort By

Parquet：列存储模式 + 列压缩

优化示例：

CREATE TABLE IF NOT EXISTS tmp.test(
    id            string COMMENT ,
    feature       string COMMENT ,
    value         string COMMENT 
)
PARTITIONED BY (
    data_date     bigint COMMENT '时间分区'
);

INSERT OVERWRITE TABLE tmp.test partition(data_date=001)
SELECT id, alias_name, value
FROM (
    SELECT alias_name, feature
    FROM tmp.mapping
    WHERE data_date = 20200618
) a
JOIN (
    SELECT id, feature, value
    FROM tmp.source
    WHERE data_date = 20200706
) b
ON a.feature = b.feature;



INSERT OVERWRITE TABLE tmp.test partition(da

最低0.47元/天解锁文章

木给哇啦丶

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive存储优化之Cluster By + Parquet

场景：在业务场景中，会经常有join或者group by操作，这样会使数据打散，使Parquet无法达到最大的压缩比，使用Cluster By使相同的key聚合排序，达到Parquet最大的压缩比基础知识：要熟悉以下概念，简单介绍一下Distribute By：reduce阶段key值聚合分发Sort By：分组排序Cluster By =Distribute By + Sort ByParquet：列存储模式 + 列压缩优化示例：CREATE TABLE...
复制链接

扫一扫

专栏目录