为什么要用数据湖iceberg？

珠江之南

于 2024-02-15 16:41:50 发布

阅读量407

点赞数 10

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75550155/article/details/129828114

版权

1.数据湖是干什么的？

为了解决当前数仓平台的痛点

2.当前数仓平台的痛点

2.1 传统数仓（批式处理，离线）

T+1时效低
数据故障回复代价高（长时间、全链路重算）
数据去重、exactly-once实现困难
架构复杂，设计多个系统协调。靠调度系统来构建任务依赖关系

2.2 lamda架构（批式处理+流式处理，离线+实时）

同时维护实施平台、离线平台，运维成本高
框架不同，但逻辑相同的两套代码，开发成本高
两条数据链路，容易导致数据不一致
数据更新成本高，需要重跑链路

2.3 kappa架构（流式处理，实时）

对消息队列存储要求高，消息队列的回溯能力不及离线存储
消息对列本身对数据存储有时效性，且无法使用OLAP引擎分析消息队列中的数据
全链路依赖消息队列的实时计算可能因为数据的时序性导致结果不正确

3. 数据湖解决了什么问题

支持数据高效回溯
支持数据更新
数据的流批读写
分钟级到秒级的数据接入
ACID语义
schema变更

4.什么是iceberg

一种表格式
基于计算层（flink、spark）和存储层（ORC、Parqurt，Avro）的一个中间层
用flink或spark或其他支持的工具将数据写入iceberg，然后再通过其他方式来读取（spark、flink、presto等）
向下管理在存储系统上的文件，向上为计算层提供一些接口
通过Metastore存储表相关的信息

5.

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
为什么要用数据湖iceberg？

2.2 lamda架构（批式处理+流式处理，离线+实时）为了解决当前数仓平台的痛点。2.3 kappa架构（流式处理，实时）2.1 传统数仓（批式处理，离线）3. 数据湖解决了什么问题。4.什么是iceberg。1.数据湖是干什么的？2.当前数仓平台的痛点。
复制链接

扫一扫

珠江之南 CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

153万+: 周排名

13万+: 总排名

8615: 访问

: 等级

235: 积分

76: 粉丝

105: 获赞

14: 评论

94: 收藏

私信

关注

热门文章

分类专栏

spark 8篇
大数据 10篇
数据库 3篇
Doris 2篇
Python
Iceberg

最新评论

spark执行流程
CSDN-Ada助手: 恭喜用户写了第6篇博客！标题为“spark执行流程”看起来很有深度。希望用户可以继续保持创作的热情和努力，分享更多有价值的内容给读者。或许下一步可以尝试深入探讨一些实际案例或者与其他技术进行对比分析，以拓展博客的内容和观点。期待用户的下一篇作品！
spark组件
CSDN-Ada助手: 恭喜您发布第7篇博客“spark组件”！您对于spark组件的深入探讨让我受益匪浅，希望您能继续保持创作的热情和努力。接下来，可以考虑结合实际案例或者对比不同spark组件的优缺点，为读者提供更加全面的信息。期待您的下一篇博客！祝您创作顺利！
spark RDD
CSDN-Ada助手: 恭喜您写了第8篇博客“spark RDD”！持续创作是提升自己技术能力的重要途径，希望您能保持热情，继续分享更多有价值的内容。或许下一步可以深入探讨Spark中其他重要的概念或功能，为读者提供更全面的学习体验。期待您的下一篇作品！祝您越来越有所成。
reduceByKey 与 GroupByKey
CSDN-Ada助手: 恭喜您发布了第9篇博客，对于讨论reduceByKey与GroupByKey这两个关键概念，阐述得非常清晰深入。希望您能继续坚持创作，探索更多有趣的主题，也许可以尝试写一些实际案例或者应用场景，让读者更容易理解并应用这些技术。期待您的下一篇作品！
CoGroupRDD
CSDN-Ada助手: 恭喜用户写出了第10篇博客《CoGroupRDD》，内容一定十分精彩和深入。希望您能继续保持创作的热情和耐心，不断提升自己的写作水平。或许下一步可以尝试探讨一些实践经验或者案例分析，让读者更加直观地了解CoGroupRDD的应用和价值。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。