实时湖仓架构演变

最新推荐文章于 2024-09-26 23:39:33 发布

烛影摇红透纱窗

最新推荐文章于 2024-09-26 23:39:33 发布

阅读量242

点赞数 3

分类专栏：数据湖文章标签：大数据

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/pointer_future/article/details/142565935

版权

数据湖专栏收录该内容

1 篇文章 0 订阅

订阅专栏

queue + flink + mysql/redis ：
最初形态，flink做计算，结果插入数据库中，数据库的查询速度很快。缺点是不够灵活，只能查询计算好的聚合数据，想查其他维度或条件的数据，要从头开发一套完整的流程
queue + flink + clickhouse(OLAP) ：
flink 只做 etl 和 join 形成宽表，结果导入支持向量化(？)的 clickhouse，查询在 ck 上做。缺点是 clickhouse 要用 ssd 和好 cpu,价格昂贵
queue + flink hive sink + hive (ad-hoc)
用 flink 的 hive sink 代替 clickhouse, flink 还是只做 etl + join 宽表，只是查询从 OLAP 换成了存储便宜的 ad-hoc （即席查询）。由于 flink 的 hie sink 延迟是 checkpoint 级别的，一般几分种，所以这种结构做了离线数仓的近实时
queue + flink CDC + iceberg
该方案用 iceberg 替换掉 hive 做离线数仓存储。好处是 iceberg 只负责存储，可以对外被实时流读取，也可以做离线查询。比 hive 的可用性强，而且数据更安全了，这意味着你可以做一些小数据的操作：比如 INSERT INTO 一些数据，DELTE \ UPDATE \ MERGE_INTO 有着更好的支持，而不是像 Hive 一样，要安全的动数据只能 INSERT OVERWRITE 整个分区。。缺点是 CDC 入离线数仓产生的文件不好控制，而且由于那个时候 iceberg 还不能支持 upsert (有就update,没有就insert),所以使用 flink CDC(Change Data Capture) 入仓所采用的“前天的一个全量表，合并今天的增量表，产生今天的全量表“的存储方式。使得每天一个全量表存储成本巨大。
实际业务为什么要用 CDC 同步 mysql呢？在 OLTP 系统中，为了解决单表数据量大的问题，通常采用分库分表的方式将单个大表进行拆分以提高系统的吞吐量。但是为了方便数据分析，通常需要将分库分表拆分出的表在同步到数据仓库、数据湖时，再合并成一个大表。目前 iceberg 支持 upsert 的特性，但 Iceberg 主打离线数据湖和扩展性
flink cdc / kafka cdc + paimon ：
paimon原生支持flink cdc,因为他的前身叫 flink table store. 而却设计成支持 upsert, 使用 lsm 树的格式
相比于 Flink SQL 入湖，Paimon 的 CDC 入湖不但可以将数据和 Schema 的变更一起同步到 Paimon 的表中。每天的离线视图可以通过 CREATE TAG 创建，Tag 是一个 snapshot 的引用。而且基于LSM数据结构的特点，只要增量数据不大，两个 TAG 之间是可以复用大量文件的，某些场景有上百倍的节省！

烛影摇红透纱窗

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。