阿帕奇光束

Apache Beam是一个开放源代码统一模型,用于定义批处理和流数据并行处理管道。 使用一种开源的Beam SDK,您可以构建一个定义管道的程序。 然后,该管道由Beam支持的分布式处理后端之一执行,这些后端包括Apache ApexApache FlinkApache SparkGoogle Cloud Dataflow

Beam对于令人尴尬的并行数据处理任务特别有用,在该任务中,问题可以分解为许多较小的数据束,可以独立和并行处理。 您还可以将Beam用于提取,转换和加载(ETL)任务以及纯数据集成。 这些任务对于在不同的存储介质和数据源之间移动数据,将数据转换为更理想的格式或将数据加载到新系统上非常有用。

Apache Beam管道运行器

Beam Pipeline运行器将您使用Beam程序定义的数据处理管道转换为与您选择的分布式处理后端兼容的API。 运行Beam程序时,需要为要在其中执行管道的后端指定适当的运行程序。

Beam当前支持与以下分布式处理后端一起使用的Runner:

  • Apache Apex
  • Apache Flink
  • Apache Gearpump(正在孵化)
  • 阿帕奇火花
  • Google Cloud Dataflow

[1] https://beam.apache.org

翻译自: https://www.javacodegeeks.com/2018/02/apache-beam.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值