ApacheBeam前瞻

最新推荐文章于 2022-07-28 14:55:53 发布

sandi800bai

最新推荐文章于 2022-07-28 14:55:53 发布

阅读量195

点赞数

它的设计初衷——统一批处理（Batch）模式和数据流（Stream）处理模式的标准。

ApacheBeam项目的重点，在于数据处理的编程范式和接口定义，事实上，它并不涉及具体的执行引擎的实现，而且，能够基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上，也是它的目标。综上，统一批处理和流处理的编程范式是ApacheBeam的主要目标，因为这样能够为无限、乱序、web-scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。

由于ApacheBeam提供了很多在线框架，所以开发者也就无需学习太多框架。同时，它也提供了一个模板更方便用户去进行数据处理——BeamModel。我们都知道，无限的时间乱序数据流，是BeamModel处理的目标数据，不考虑时间顺序或是有限的数据集可看作是无限乱序数据流的一个特例。而用户只需要在Model的每一步中根据业务需求，按照以下几个维度调用具体的API，即可生成分布式数据处理Pipeline，并提交到具体执行引擎上执行。这几个维度抽象出来，便是BeamSDK。

　　那么，到底用户在进行数据处理时，需考虑哪几个维度的问题呢？

　　1.是什么——如何对数据进行计算

　　例如，Sum、Join或是机器学习中的训练学习模型等。在BeamSDK中由Pipeline中的操作符指定。

　　2.在哪里——数据在什么范围中计算

　　例如，基于Process-Time的时间窗口，基于Event-Time的时间窗口，滑动窗口等等。在BeamSDK中由Pipeline中的窗口指定。

　　3.什么时候——何时将计算结果输出

　　例如，在1小时的Event-Time时间窗口中，每隔1分钟，将当前窗口计算结果输出。在BeamSDK中由Pipeline中的Watermark和触发器指定。

　　4.怎样处理——迟到数据如何处理

　　例如，将迟到数据计算增量结果输出，或是将迟到数据计算结果和窗口内数据计算结果合并成全量结果输出。在BeamSDK中由Accumulation指定。

　　三、BeamSDK的主要概念

　　将上文提及的4个维度抽象出来，便是BeamSDK。值得一提的是，这几个维度的抽象仅仅关注业务逻辑本身，和分布式任务如何执行没有任何关系。那么，关于ApacheBeamSDK有哪4个主要概念呢？更多大数据与商业智能领域干货、兼职机会及行业资源分享等，请关注“大圣众包”微博，或添加大圣妹个人微信号“dashengmeme”。

　　1.Pipeline

　　这有点类似于SparkContext。你所有的操作将开始于调度对象,你会用它来从输入源建立数据流,应用转换,并将结果写入输出下沉。

　　2.PCollection

　　类似于原始的Spark的弹性分布式数据集（RDD）,PCollections包含一个潜在的无限数据流。这些信息都来源于输入源，然后应用转换。

　　3.Transforms

　　一个操作PCollection处理步骤执行数据操作。典型的传递途径可能会在一个输入源有多个转换操作（例如，将一组日志条目传入的字符串转换成一个键/值对，关键是IP地址和值是日志消息）。它由BeamSDK附带的一系列标准聚合建成，当然，也可以定义根据自己的处理需求自定义。

　　4.I/Osourcesandsinks

　　源和汇为你的数据提供输入和输出端点。

来自：http://blog.csdn.net/dashenghuahua/article/details/53462604

详细：https://zhuanlan.zhihu.com/p/23618169

sandi800bai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ApacheBeam前瞻

它的设计初衷——统一批处理（Batch）模式和数据流（Stream）处理模式的标准。ApacheBeam项目的重点，在于数据处理的编程范式和接口定义，事实上，它并不涉及具体的执行引擎的实现，而且，能够基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上，也是它的目标。综上，统一批处理和流处理的编程范式是ApacheBeam的主要目标，因为这样能够为无限、乱序、web-scale的
复制链接

扫一扫