Paimon是什么?这个问题困扰我良久,郁郁不得其解。
随着我不断尝试、重复思考,直到完全跑通了入门案例才终于有种豁然开朗的感觉(这感觉真好),感叹Paimon未来大有可为。
后续我将出一个系列教程,为大家逐步讲解Paimon的用法,带你轻松入门。本文则是Paimon系列教程的第一篇,为大家介绍什么是Paimon。
什么是Paimon
首先我们来看看Paimon的前世今生吧。
Paimon原名是Flink Table Store(简称FTS),最初是Flink社区孵化的一个子项目,该项目的本意是想提供一个 Flink 完全内置的存储,解决实时、近实时、Queue、Table Format 的所有问题,结合 Flink + 这个内置存储,提供 Materialized View 的自动流处理,直接提供查询服务,打造一个完整的 Streaming DB。好事多磨,经过长达近2年的打磨,最终形成了湖 + LSM的方案,并于2023年3月12日进入ASF孵化器,才正式更名为Apache Paimon。
简而言之,Apache Paimon是一种流批统一的湖存储格式,支持高吞吐的写入和低延迟的查询。
Paimon的核心能力
-
基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。
-
支持在流模式与批模式下读写大规模数据集。
-
支持分钟级到秒级数据新鲜度的批查询和OLAP查询。
-
支持消费与产生增量数据,可作为传统数仓与流式数仓的各级存储。
-
支持预聚合数据,降低存储成本与下游计算压力。
-
支持历史版本回溯。
-
支持高