浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践

最新推荐文章于 2024-06-17 10:15:17 发布

Amoro Community

最新推荐文章于 2024-06-17 10:15:17 发布

阅读量990

点赞数 15

文章标签： apache 开源大数据 github

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vvda_py/article/details/135205654

版权

Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统，提供了一套可插拔的数据自优化机制和管理服务，旨在为用户带来开箱即用的湖仓使用体验。

01 作者简介

喻志强，浙江电信大数据中心平台组负责人，拥有超10年电信行业数据仓库和大数据建设实施经验。资深商业化 MPP 数据库 Vertica 以及开源 MPP 数据库 StarRocks-DBA。目前主要参与基于 Apache Iceberg 的湖仓一体方向架构以及开源 MPP 产品数据应用集市的建设实施。

02 Apache Iceberg 在浙江电信

为什么选择 Iceberg

浙江电信大数据中心主要负责电信的业务数据汇聚和数仓生产以及部分数据应用。大数据架构革新到目前为止大体历经三个阶段。

阶段一：数仓改造 Hive 探索

随着大数据体系的迭代我们开始构建以 Hive 为基础的实时经分大数据系统，同步探索数仓改造至 Hive 的可行性，但在转向 Hive 后我们遇到了以下问题：

采用 MR 执行，离线批处理效率低下，相比在商业化 MPP 数据库上生产完成时间滞后了4-5小时
缺少了关系型数据库的约束、严格的字段类型限制和 ACID 的语义以及第三方工具和平台的辅助，导致后续数据质量维护成本较高，数据质量不达标

基于以上因素，数仓暂停了改造 Hive 的过程，转回寻找更加物美价廉的商业化 MPP 产品了（主要从原 MPP 行式存储瓶颈着手，引入基于 x86 架构的列式存储 MPP 数据库）。已构建完成的大数据集群同步基于 Hive 探索承接部分时效性要求不高的数据应用任务。数据写入 Hive 流程如下：

这里导数工具主要由本地采集团队通过 java 开发，定期通过访问 Oracle 从库抽取生成格式化的文本文件后写入 Hive。从而完成业务数据到数仓数据的同步。该方式的一大基础是 Oracle 从库的读取性能保证并且不影响业务系统库的使用，但同时定期触发的方式也注定了 Hive 中的数据时效性是比较差的。

阶段二：业务系统上云引起后端数仓以及应用系统的架构调整

后续随着浙江电信开启系统上云任务，业务系统库逐步从 Oracle 转为 TeleDB （电信基于 MySQL 自研关系型数据库），传统的直接读业务库数据写入数仓体系的数据流转链路会对 TeleDB 业务库造成很大的压力。在这些问题的驱动下我们的数据链路也发生了变化。

最低0.47元/天解锁文章

Amoro Community

关注

15
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践

浙江电信大数据架构革新选型 Apache Iceberg和 Amoro 打造实时湖仓。Amoro 的 optimizing 能力管理实时写入的 Iceberg 表近1万+ 张
复制链接

扫一扫

Amoro Community CSDN认证博客专家 CSDN认证企业博客

码龄1年

7: 原创

129万+: 周排名

19万+: 总排名

4247: 访问

: 等级

122: 积分

43: 粉丝

51: 获赞

6: 评论

67: 收藏

私信

关注

热门文章

最新评论

有道基于 Amoro Mixed Format 构建准实时湖仓实践
CSDN-Ada助手: 恭喜您能够持续不断地分享关于“有道基于 Amoro Mixed Format 构建准实时湖仓实践”的经验和见解。这篇博客内容丰富，对于想要了解这方面知识的读者来说是非常有益的。在下一篇博客中，或许您可以考虑分享一些具体的案例分析或者实际操作中遇到的挑战和解决方案，这样能够让读者更好地理解和应用您的经验。希望您能够继续保持创作，期待您更多的精彩内容！
Amoro 试用&贡献活动 | 10月社区评选揭晓
CSDN-Ada助手: 恭喜用户在Amoro社区评选活动中取得了好成绩！持续创作并参与社区活动是非常棒的行为，你的努力和贡献得到了认可。希望你能继续保持创作热情，不断提升自己的写作技巧，也可以多尝试一些新的题材和风格，让自己的创作更加多元化和丰富。加油！
Apache Iceberg + Amoro 构建云原生湖仓实战
Amoro Community: 您好呀，这个问题技术含量比较高，小助手暂时不了解，可以加社群详细交流哈
Apache Iceberg + Amoro 构建云原生湖仓实战
qq_34007139: latest版本发现并不会注册ams为一个external的资源，还是用的已有的资源
Amoro Mixed Format 适用场景及原理解析
CSDN-Ada助手: 非常棒的博客！看到你写的关于Amoro Mixed Format的解析，我对这个技术有了更深入的了解。你的文章内容清晰，逻辑严谨，帮助我理解了Amoro Mixed Format在“实时湖仓”与“流批一体”等场景中的应用。继续创作下去吧！我期待你能分享更多关于数据处理和解决实际场景需求的技术文章。对于这个主题，你可以进一步探讨如何优化数据自动分桶和冲突自动解决的技术，以及如何解决在实际应用中可能遇到的挑战。此外，关于“实时湖仓”和“流批一体”这两个场景，你可以进一步介绍一些常见的应用案例和真实的业务场景，这样读者能够更好地了解Amoro Mixed Format的实际价值和应用范围。期待你的下一篇博客！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。