关注微信公众号【BigData512】,了解更多大数据技术,还有免费资料等你哦
简介
Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景,Apache Flink 作为目前最流行的流计算框架,在流式计算场景有天然的优势,当前,Flink 社区也在积极拥抱 Hudi 社区,发挥自身 streaming 写/读的优势,同时也对 batch 的读写做了支持。
环境准备
Hudi 有一个为

本文介绍了Apache Flink如何与Hudi集成,利用Hudi的更新删除功能进行数据湖操作。通过Hudi的copy on write和merge on read两种写入方式,实现数据的高效管理。并提供了一个实战案例,演示了从Kafka数据源写入Hudi存储的过程,强调了预组合字段和主键设置的重要性。

订阅专栏 解锁全文
513

被折叠的 条评论
为什么被折叠?



