beam整合flink

这篇博客介绍了如何将Apache Beam与Flink进行整合,包括Apache Beam的概念、开发环境的准备、通过Maven下载Wordcount示例代码、配置Flink Runner、在Flink集群上执行管道,并检查执行结果。
摘要由CSDN通过智能技术生成

Apache Beam概述

Apache Beam是一种开源的统一模型,用于定义批处理和流数据并行处理流水线。使用一个开源的Beam SDK,您可以构建一个定义管道的程序。然后,管道由Beam支持的分布式处理后端执行,其中包括Apache Apex,Apache Flink,Apache Spark和Google Cloud Dataflow。
beamSDK提供统一的编程模型,可以表示和转换任何大小的数据集,无论输入是来自批量数据源的有限数据集,还是来自流式数据源的无限数据集。

开发环境

-下载安装 JDK 7 或更新的版本,检测 JAVA_HOME环境变量
-下载 Maven 打包环境。

maven下载Wordcount示例代码

$ mvn archetype:generate \
-DarchetypeGroupId=org.apache.beam \
-DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \
-DarchetypeVersion=2.1.0 \
-DgroupId=org.example \
-DartifactId=word-count-beam \
-Dversion=”0.1” \
-Dpackage=org.apache.beam.examples \
-DinteractiveMode=false

这将创建一个目录word-count-beam,其中包含一个简单pom.xml的一系列示例管道,用于计算文本文件中的单词。

查看下载好的示例代码

$ cd word-count-beam/

$ ls
pom.xml src

$ ls src/main/java/org/apache/beam/examples/
DebuggingWordCount.java WindowedWordCount.java common
MinimalWordCount.java WordCount.java

如果要使用Flink runner的本地执行模式不必完成任何设置。
要了解您需要哪个版本的Flink,您可以运行此命令来检查项目使用的Flink依赖关系的版本:

$ mvn dependency:tree -Pflink-runner |grep flink

[INFO] | +- org.apache.flink:flink-streaming-java_2.10:jar:1.2.1:runtime

 <profile>
  <id>flink-runner</id>
  <!-- Makes the FlinkRunner available when running a pipeline. -->
  <dependencies>
    <dependency>
      <groupId>org.apache.beam</groupId>
      <artifactId>beam-runners-flink_2.10</artifactId>
      <version>${beam.version}</version>
      <scope>runtime</scope>
    </dependency>
  </dependencies>
</profile>

在Flink集群上执行管道

mvnpackagePflinkr

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值