Arctic 自动优化湖仓原理解析

「已注销」

已于 2023-06-16 14:08:45 修改

阅读量230

点赞数 1

文章标签：数据仓库大数据

于 2023-06-16 14:04:47 首次发布

本文链接：https://blog.csdn.net/KivaLiu/article/details/131245703

版权

本文解析了湖仓管理系统Arctic的自动优化原理，旨在解决数据湖与数据仓库之间的优化难题。Arctic提供Self-optimizing机制，包括文件合并、清理等优化任务，实现自动、异步、透明的优化服务。文章详细介绍了按需触发优化、细分优化任务、资源隔离与共享以及监控与展示等方面，旨在打造高效、易用的湖仓一体架构。

摘要由CSDN通过智能技术生成

背景

数据湖与数据仓库都是常见的大数据存储系统。得益于其低廉的成本优势，数据湖一般用来存储海量的原始数据。原始数据经过清洗、标准化后会再导入到数据仓库中进行数据分析。数据在两个系统间流转无疑增加了额外的存储与维护开销。

近年来随着 Apache lceberg、Apache Hudi、Delta Lake 等数据湖表格式技术的不断发展使得直接在数据湖上构建一套统一的存储系统来满足所有的大数据存储需求成为可能。业界将这种直接建立在数据湖之上，却能同时覆盖数据湖与数据仓库存储场景的架构为湖仓一体（LakeHouse）。

然而开源表格式距离生产可用的湖仓一体架构还有着较大的鸿沟，在这个背景下网易在 2022 年开源了湖仓管理系统——Arctic。Arctic 是一个开放式架构下的湖仓管理系统，在开放的数据湖格式之上，Arctic 提供更多面向流和更新场景的优化，以及一套可插拔的数据自优化机制和管理服务。基于 Arctic 可以帮助各类数据平台，工具和产品快速搭建开箱即用，流批统一的湖仓。

要构建一套开箱即用的湖仓系统，自动优化是第一个需要解决的需求。现在大部分开源的数据湖表格式都要求用户投入大量的精力来维护数据湖表中的文件结构，稍不留神表的查询性能就可能出现较大的下滑。

湖仓优化的需求与难点

湖仓上有两类常见的优化需求：文件合并与文件清理。文件合并可分为以下场景：

合并碎片文件：数据写入时受限于本次写入的数据量和写入并发，很难保证每个写入文件都达到用户预期的大小。特别的在实时场景下为了降低湖仓中数据的延迟，需要频繁地提交新文件，这无疑将会带来大量的碎片文件。过多的碎片文件会造成元数据膨胀，进一步降低湖仓表的读取性能，故及时地合并碎片文件到用户的预期大小对湖仓表的性能至关重要。
合并变更文件：现代的湖仓表格式通常都有行级更新的能力，而实现行级更新的一般方法是将更新操作写入到单独的变更文件里，这样能快速完成数据变更。但随着变更文件越来越多，在读取表中数据时用于合并变更文件与数据文件的资源也越来越多，而这个变化一般成指数级上升，故用户也需要及时合并变更文件到数据文件中。

常见的文件清理场景包括：