在本文中,我们将介绍 Apache Beam,这是一个强大的批处理和流式处理 开源项目 ,eBay 等大公司用它来集成流式处理管道,Mozilla 用它来在系统之间安全地移动数据。
概览
Apache Beam 是一种处理数据的编程模型,支持批处理和流式处理。
你可以使用它提供的 Java、Python 和 Go SDK 开发管道,然后选择运行管道的后端。
Apache Beam 的优势
Beam 的编程模型
- 内置的 IO 连接器
- Apache Beam 连接器可用于从几种类型的存储中轻松提取和加载数据。
- 主要连接器类型有:
- 基于文件的(例如 Apache Parquet、Apache Thrift);
- 文件系统(例如 Hadoop、谷歌云存储、Amazon S3);
- 消息传递(例如 Apache Kafka、Google Pub/Sub、Amazon SQS);
- 数据库(例如 Apache Cassandra、Elastic Search、MongoDB)。
- 作为一个 OSS 项目,对新连接器的支持在不断增长(例如 InfluxDB、Neo4J)。
- 可移植性:
- Beam 提供了几个运行管道的 Runner,你可以根据自己的场景选择最合适的,并避免供应商锁定。
- 分布式处理后端,如 Apache Flink、Apache Spark 或 Google Cloud Dataflow 可以作为 Runner。
- 分布式并行处理:
- 默认情况下,数据集的每一项都是独立处理的,因此可以通过并行运行实现优化。
- 开发人员不需要手动分配负载,因为 Beam 为它提供了一个抽象。
Beam 的编程模型
Beam 编程模型的关键概念:
- PCollection:表示数据的集合,如从文本中提取的数字或单词数组。
- PTransform:一个转换函数,接收并返回一个 PCollection,例如所有数字的和。
- 管道:管理 PTransform 和 PCollection 之间的交互。
- PipelineRunner:指定管道应该在哪里以及如何执行。
快速入门
一个基本的管道操作包括 3 个步骤:读取、处理和写入转换结果。这里的每一个步骤都是用 Beam 提供的 SDK 进行编程式定义的。
在本节中,我们将使用 Java SDK 创建管道。你可以创建一个本地应用程序(使用 Gradle 或 Maven 构建),也可以使用 在线沙盒 。示例将使用本地 Runner,因为这样使用 JUnit 断言验证结果会更容易些。
Java 本地依赖
- beam-sdk-java-core:包含所有的 Beam 模型类。
- beam-runners-direct-java:默认情况下 Beam SDK 将直接使用本地 Runner,也就是说管道将在本地机器上运行。
乘 2 操作
在第一个例子中,管道将接收到一个数字数组,并将每个元素乘以 2。
第一步是创建管道实例,它将接收输入数组并执行转换函数。因为我们使用 JUnit 运行 Beam,所以可以很容易地创建 TestPipeline 并将其作为测试类的一个字段。如果你更喜欢通过 main 方法来运行,需要设置 管道配置参数 。
@Rule
public final transient TestPipeline pipeline = TestPipeline.create();
复制代码
现在,我们可以创建作为管道输入的 PCollection。它是一个直接在内存中实例化的数组,但它也可以从支持 Beam 的任何地方读取。
PCollection<Integer> numbers =
pipeline.apply(Create.of(1, 2, 3, 4, 5));
复制代码
然后我们应用我们的转换函数,将每个元素乘以 2。
PCollection<Integer> output = numbers.apply(
MapElements.into(TypeDescri