Apache Gobblin 分布式大数据集成框架

最新推荐文章于 2024-06-08 09:30:32 发布

ejinxian

最新推荐文章于 2024-06-08 09:30:32 发布

阅读量1.1k

点赞数

分类专栏： Java 文章标签：分布式大数据大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ejinxian/article/details/113881465

版权

Java 专栏收录该内容

91 篇文章 2 订阅

订阅专栏

Apache Gobblin 是一个分布式大数据集成框架，用于流式和批处理数据生态系统。该项目 2014 年起源于 LinkedIn，2015 年开源，并于 2017 年 2 月进入 Apache 孵化器

通过简化跨多个执行环境、数据速度、规模、连接器等的接收、复制、组织和生命周期管理流程，Apache Gobblin 每天可用于集成数百 TB 和数千个数据集

在支持简单转换的同时，从各种来源提取和导出数据，并汇入和汇出数据湖。
湖中的数据组织（例如压缩、分区、重复数据删除）。
元数据驱动的湖泊内数据的生命周期和合规性管理（例如，数据保留、细粒度数据删除）

Apache Gobblin 的详细介绍可查看：https://gobblin.apache.org/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Gobblin 分布式大数据集成框架

Apache Gobblin 是一个分布式大数据集成框架，用于流式和批处理数据生态系统。该项目 2014 年起源于 LinkedIn，2015 年开源，并于 2017 年 2 月进入 Apache 孵化器通过简化跨多个执行环境、数据速度、规模、连接器等的接收、复制、组织和生命周期管理流程，Apache Gobblin 每天可用于集成数百 TB 和数千个数据集在支持简单转换的同时，从各种来源提取和导出数据，并汇入和汇出数据湖。湖中的数据组织（例如压缩、分区、重复数据删除）。元数据驱动的湖泊内数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。