ApacheBeam前瞻

它的设计初衷——统一批处理(Batch)模式和数据流(Stream)处理模式的标准。

ApacheBeam项目的重点,在于数据处理的编程范式和接口定义,事实上,它并不涉及具体的执行引擎的实现,而且,能够基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上,也是它的目标。综上,统一批处理和流处理的编程范式是ApacheBeam的主要目标,因为这样能够为无限、乱序、web-scale的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。

由于ApacheBeam提供了很多在线框架,所以开发者也就无需学习太多框架。同时,它也提供了一个模板更方便用户去进行数据处理——BeamModel。我们都知道,无限的时间乱序数据流,是BeamModel处理的目标数据,不考虑时间顺序或是有限的数据集可看作是无限乱序数据流的一个特例。而用户只需要在Model的每一步中根据业务需求,按照以下几个维度调用具体的API,即可生成分布式数据处理Pipeline,并提交到具体执行引擎上执行。这几个维度抽象出来,便是BeamSDK。

  那么,到底用户在进行数据处理时,需考虑哪几个维度的问题呢?

  1.是什么——如何对数据进行计算

  例如,Sum、Join或是机器学习中的训练学习模型等。在BeamSDK中由Pipeline中的操作符指定。

  2.在哪里——数据在什么范围中计算

  例如,基于Process-Time的时间窗口,基于Event-Time的时间窗口,滑动窗口等等。在BeamSDK中由Pipeline中的窗口指定。

  3.什么时候——何时将计算结果输出

  例如,在1小时的Event-Time时间窗口中,每隔1分钟,将当前窗口计算结果输出。在BeamSDK中由Pipeline中的Watermark和触发器指定。

  4.怎样处理——迟到数据如何处理

  例如,将迟到数据计算增量结果输出,或是将迟到数据计算结果和窗口内数据计算结果合并成全量结果输出。在BeamSDK中由Accumulation指定。

  三、BeamSDK的主要概念

  将上文提及的4个维度抽象出来,便是BeamSDK。值得一提的是,这几个维度的抽象仅仅关注业务逻辑本身,和分布式任务如何执行没有任何关系。那么,关于ApacheBeamSDK有哪4个主要概念呢?更多大数据与商业智能领域干货、兼职机会及行业资源分享等,请关注“大圣众包”微博,或添加大圣妹个人微信号“dashengmeme”。

  1.Pipeline

  这有点类似于SparkContext。你所有的操作将开始于调度对象,你会用它来从输入源建立数据流,应用转换,并将结果写入输出下沉。

  2.PCollection

  类似于原始的Spark的弹性分布式数据集(RDD),PCollections包含一个潜在的无限数据流。这些信息都来源于输入源,然后应用转换。

  3.Transforms

  一个操作PCollection处理步骤执行数据操作。典型的传递途径可能会在一个输入源有多个转换操作(例如,将一组日志条目传入的字符串转换成一个键/值对,关键是IP地址和值是日志消息)。它由BeamSDK附带的一系列标准聚合建成,当然,也可以定义根据自己的处理需求自定义。

  4.I/Osourcesandsinks

  源和汇为你的数据提供输入和输出端点。



来自:http://blog.csdn.net/dashenghuahua/article/details/53462604

详细:https://zhuanlan.zhihu.com/p/23618169

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值