通过 Java 来学习 Apache Beam

最新推荐文章于 2024-07-18 16:01:11 发布

肥肥技术宅

最新推荐文章于 2024-07-18 16:01:11 发布

阅读量285

点赞数

分类专栏： java 文章标签：大数据 java

本文链接：https://blog.csdn.net/m0_71777195/article/details/125520532

版权

在本文中，我们将介绍 Apache Beam，这是一个强大的批处理和流式处理开源项目，eBay 等大公司用它来集成流式处理管道，Mozilla 用它来在系统之间安全地移动数据。

概览

Apache Beam 是一种处理数据的编程模型，支持批处理和流式处理。

你可以使用它提供的 Java、Python 和 Go SDK 开发管道，然后选择运行管道的后端。

Beam 编程模型的关键概念：

一个基本的管道操作包括 3 个步骤：读取、处理和写入转换结果。这里的每一个步骤都是用 Beam 提供的 SDK 进行编程式定义的。

在本节中，我们将使用 Java SDK 创建管道。你可以创建一个本地应用程序（使用 Gradle 或 Maven 构建），也可以使用在线沙盒。示例将使用本地 Runner，因为这样使用 JUnit 断言验证结果会更容易些。

在第一个例子中，管道将接收到一个数字数组，并将每个元素乘以 2。

第一步是创建管道实例，它将接收输入数组并执行转换函数。因为我们使用 JUnit 运行 Beam，所以可以很容易地创建 TestPipeline 并将其作为测试类的一个字段。如果你更喜欢通过 main 方法来运行，需要设置管道配置参数。

@Rule
public final transient TestPipeline pipeline = TestPipeline.create();

复制代码

现在，我们可以创建作为管道输入的 PCollection。它是一个直接在内存中实例化的数组，但它也可以从支持 Beam 的任何地方读取。

PCollection<Integer> numbers =
                pipeline.apply(Create.of(1, 2, 3, 4, 5));

复制代码

然后我们应用我们的转换函数，将每个元素乘以 2。

PCollection<Integer> output = numbers.apply(
                MapElements.into(TypeDescri

关注