如何巧用 Flink+Clickhouse 构建高性能实时数仓？

最新推荐文章于 2025-09-06 03:28:52 发布

转载最新推荐文章于 2025-09-06 03:28:52 发布 · 960 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://www.selectdb.com/blog/217

文章标签：

#数据仓库

本文探讨了Flink和ClickHouse在实时数据仓库中的角色，Flink作为流处理框架，与ClickHouse的列式存储相结合，提供高效查询和低延迟。文章还介绍了ClickHouse的局限和Flink的优势，以及SelectDB产品如何简化开发和优化过程。

Flink 和 ClickHouse 都是用于构建实时数据仓库的优秀工具。Flink 是一个用于流处理的开源框架，而 ClickHouse 则是一个用于实时数据仓库的高性能列存储数据库。Flink 是 ClickHouse 的最佳搭档，为什么这么说呢？

实时数仓

ClickHouse 是一个用于联机分析 (OLAP) 的列式数据库管理系统（DBMS），它采用了列式存储、数据压缩、多核并行、向量引擎、分布式处理等技术，性能遥遥领先竞品。

1 亿条数据量级下，ClickHouse 与多种常见数据处理系统的查询速度对比图（数字越小代表耗时越短，性能越好），可以看到 ClickHouse 的性能数据遥遥领先。

ClickHouse 的数据分析能力如此高效，它还是有自己不擅长的地方：

不适合大量单条数据的写请求，因为写入过快时后台合并不过来，会报 Too many parts 等错误；不适合频繁的数据更新和删除操作，因为变更数据的聚合处理需要时间，短期内可能出现数据不准的现象；不擅长做多张表的关联（尤其是不同数据库引擎的源表之间 JOIN）；生态支持弱，不适合多种不同数据源（特别是流式数据源）的接入；

而这些 ClickHouse 不擅长做的事情，刚好是 Flink 最适合的领域：

Flink 流处理模型，天然适合处理大量单条的流数据，吞吐量高，延迟低；

Flink 的流 - 动态表映射模型（如下图，来自 Flink 官网文档），可以很好地应对频繁更新和删除等记录。还可以通过 Mini-Batch、Window 等优化手段，极大地降低下游 ClickHouse 的处理压力；

Flink 支持多种流和流的 JOIN，还支持流和维度表的 JOIN 操作。借助强大的状态管理能力，可以做到精确的关联语义；

Flink 的生态支持很丰富，常见的各类系统基本都有 Connector；而且通过标准化 Source 和 Sink API，也可以轻松实现自己的 Connector。

由于开源版 Flink 的应用开发、调优、监控、运维较为繁琐，飞轮科技为了能够解决这些痛点，推出了 SelectDB 产品，SelectDB 是基于 Apache Doris 构建的实时数仓，支持大规模实时数据上的极速查询分析。

Apache Doris 1.1 版本发布，该版本是全面向量化引擎支持，拥有内存统计和限制机制，相较Palo稳定性大幅提升，性能提升3-5倍；500+优化和修复:ZSTD压缩算法、Lateral，View语法及 TableFunction 表函数等；

Apache Doris 1.12 版本，该版本算子全面优化，宽表性能领先；Clickbench 全球性能第一，领先 Clickhouse；新主键模型(MoW Uniquekey)，聚合性能提升5-10倍；嵌套数据类型: Array，JSON；初步完备的LakeHouse，性能比presto快3-5倍；轻量 Schema Change；

2023 年 7 月，Apache Doris 2.0 版本发布，该版本复杂查询盲测性能提升近 10倍: