基于Flink+Hudi构建企业万亿级云上实时数据湖教程

本文介绍了基于Flink+Hudi构建的企业万亿级云上实时数据湖的优化策略,包括AutoOptimize的Merge、排序、Compaction等操作,旨在提升查询效率、降低存储成本和元数据管理压力。同时,文章提出了及时优化、必要优化和最小数据移动成本的核心设计原则,并讨论了多租户支持和透明性等架构设计考虑。
摘要由CSDN通过智能技术生成

在工作中,我们发现AutoOptimize的优化,在一些场景中可以带来巨大的提升,其中的一些优化可以满足数仓的高性能查询需求。

某些时候工程师需要对收集的数据,根据下游的不同场景处理需求,再次进行ETL处理,使得下游使用数据的时候,优化数据的存储和元数据,能够降低成本和提高效率,例如将数据进行合并、压缩、排序、行转列式存储等等。AutoOptimize的目标是集成这些优化,降低重复劳动,并且比常规的ETL更加高效。

  • Merge

当实时数据收集工具,实时的向数仓写入数据时,会产生每个数据分区(Partition)包含大量的大小不等的小文件,将海量小文件进行合并为大文件,既可以提高查询效率降低数据存储成本,也能降低存储系统的元数据管理的压力。

: https://pan.baidu.com/s/1O0fzz0A_rsq3bOSia7W6Eg?pwd=2jcb

  • 排序

对于每个数据分区而言,如果存储在其中的数据经过事先排序,那么可以提升查询速度,同时如果开启了数据压缩的话,也会带来更好的压缩效率,节省存储空间。在我们的场景中,我们对一些现存表启用了压缩的处理,降低表的存储成本,提供了更好的查询性能。

  • Compaction

现代数仓除了查询之外,还提供了更新、删除的操作,在Iceberg中使用了增量文件来实现更新和删除。随着时间,增量文件数量会越来越多,读取数据时,首先要读取原始文件,再读取增量文件,将原始文件的数据和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值