PiflowX新增Apache Beam引擎支持

最新推荐文章于 2024-09-16 11:16:36 发布

PiflowX

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量1.4k

点赞数 5

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19635589/article/details/136042930

版权

参考资料：

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)

在之前的文章中有介绍过，PiflowX是支持spark和flink计算引擎，其架构图如下所示：

在这里插入图片描述

在piflow高度抽象的流水线组件的支持下，我们可以很轻松的扩展计算引擎的支持，比如spark和flink,当然还可以是apache beam。

什么是Apache Beam

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)

大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车，可惜 Google 在发布论文后并没有公布其源码，但是 Apache 开源社区蓬勃发展，先后出现了 Hadoop，Spark，Apache Flink 等产品，而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。这次 Google 没有发一篇论文后便销声匿迹，2016年2月 Google 宣布 Google DataFlow 贡献给 Apache 基金会孵化，成为 Apache 的一个顶级开源项目。然后就出现了 Apache Beam，这次不它不是发论文发出来的，而是谷歌开源出来的。2017年5月17日发布了第一个稳定版本2.0。

Apache Beam 的定义如上图，其定位是做一个统一前后端的模型。其中，管道处理和逻辑处理是自己的，数据源和执行引擎则来自第三方。那么，Apache Beam 有哪些好处呢？

① 统一数据源，现在已经接入的 java 语言的数据源有34种，正在接入的有7种。Python 的13种。这是部分的数据源 logo，还有一些未写上的，以及正在集成的数据源。基本涵盖了整个 IT 界每个时代的数据源，数据库。

② 统一编程模型，Beam 统一了流和批，抽象出统一的 API 接口。

③ 统一大数据引擎，现在支持性最好的是 flink，spark，dataflow 还有其它的大数据引擎接入进来。

等等。。。。。。

PiflowX新架构

在这里插入图片描述
PiflowX可同时支持spark、flink和beam。借助beam的统一性，甚至可以一套逻辑同时运行在多种计算引擎下。

Beam引擎执行演示

登录页

在这里插入图片描述

首页

在这里插入图片描述
流水线首页

创建beam类型任务

设计beam类型流水线

PiflowX新增Beam计算引擎

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。