通过 Java 来学习 Apache Beam

在本文中,我们将介绍 Apache Beam,这是一个强大的批处理和流式处理 开源项目 ,eBay 等大公司用它来集成流式处理管道,Mozilla 用它来在系统之间安全地移动数据。

概览

Apache Beam 是一种处理数据的编程模型,支持批处理和流式处理。

你可以使用它提供的 Java、Python 和 Go SDK 开发管道,然后选择运行管道的后端。

Apache Beam 的优势

Beam 的编程模型

  • 内置的 IO 连接器
  • Apache Beam 连接器可用于从几种类型的存储中轻松提取和加载数据。
  • 主要连接器类型有:
  • 基于文件的(例如 Apache Parquet、Apache Thrift);
  • 文件系统(例如 Hadoop、谷歌云存储、Amazon S3);
  • 消息传递(例如 Apache Kafka、Google Pub/Sub、Amazon SQS);
  • 数据库(例如 Apache Cassandra、Elastic Search、MongoDB)。
  • 作为一个 OSS 项目,对新连接器的支持在不断增长(例如 InfluxDB、Neo4J)。
  • 可移植性:
  • Beam 提供了几个运行管道的 Runner,你可以根据自己的场景选择最合适的,并避免供应商锁定。
  • 分布式处理后端,如 Apache Flink、Apache Spark 或 Google Cloud Dataflow 可以作为 Runner。
  • 分布式并行处理:
  • 默认情况下,数据集的每一项都是独立处理的,因此可以通过并行运行实现优化。
  • 开发人员不需要手动分配负载,因为 Beam 为它提供了一个抽象。

Beam 的编程模型

Beam 编程模型的关键概念:

  • PCollection:表示数据的集合,如从文本中提取的数字或单词数组。
  • PTransform:一个转换函数,接收并返回一个 PCollection,例如所有数字的和。
  • 管道:管理 PTransform 和 PCollection 之间的交互。
  • PipelineRunner:指定管道应该在哪里以及如何执行。

快速入门

一个基本的管道操作包括 3 个步骤:读取、处理和写入转换结果。这里的每一个步骤都是用 Beam 提供的 SDK 进行编程式定义的。

在本节中,我们将使用 Java SDK 创建管道。你可以创建一个本地应用程序(使用 Gradle 或 Maven 构建),也可以使用 在线沙盒 。示例将使用本地 Runner,因为这样使用 JUnit 断言验证结果会更容易些。

Java 本地依赖

  • beam-sdk-java-core:包含所有的 Beam 模型类。
  • beam-runners-direct-java:默认情况下 Beam SDK 将直接使用本地 Runner,也就是说管道将在本地机器上运行。

乘 2 操作

在第一个例子中,管道将接收到一个数字数组,并将每个元素乘以 2。

第一步是创建管道实例,它将接收输入数组并执行转换函数。因为我们使用 JUnit 运行 Beam,所以可以很容易地创建 TestPipeline 并将其作为测试类的一个字段。如果你更喜欢通过 main 方法来运行,需要设置 管道配置参数 。

@Rule
public final transient TestPipeline pipeline = TestPipeline.create();

复制代码

现在,我们可以创建作为管道输入的 PCollection。它是一个直接在内存中实例化的数组,但它也可以从支持 Beam 的任何地方读取。

PCollection<Integer> numbers =
                pipeline.apply(Create.of(1, 2, 3, 4, 5));

复制代码

然后我们应用我们的转换函数,将每个元素乘以 2。

PCollection<Integer> output = numbers.apply(
                MapElements.into(TypeDescri
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值