快速上手开发第一个Flink应用程序
开发环境准备
λ echo %JAVA_HOME%
D:\Program Files\Java\jdk1.8.0_251
λ echo %MAVEN_HOME%
D:\Applications\apache-maven-3.6.3
使用Flink开发一个批处理应用程序(Java/Scala)
需求:词频统计(Word count)
一个文件,统计文件中每个单词出现的次数
分隔符是 \t
统计结果直接打印到控制台(生产上市Sink到目的地)
实现:Flink + Java
前置条件
The only requirements are working Maven 3.0.4 (or higher) and Java 8.x installations.
创建项目
Use one of the following commands to create a project:
-
$ mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-java \ -DarchetypeVersion=1.10.0
-
$ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.10.0
检查项目
项目创建后,工作目录将多出一个新目录。如果你使用的是 curl 方式创建项目,目录名为 quickstart
; 如果你使用的是 Maven archetypes 方式创建项目,则目录名为你指定的 artifactId
:
$ tree quickstart/
quickstart/
├── pom.xml
└── src
└── main
├── java
│ └── org
│ └── myorg
│ └── quickstart
│ ├── BatchJob.java
│ └── StreamingJob.java
└── resources
└── log4j.properties
示例项目是一个 Maven project,它包含了两个类:StreamingJob 和 BatchJob 分别是 DataStream and DataSet 程序的基础骨架程序。 main 方法是程序的入口,既可用于IDE测试/执行,也可用于部署。
我们建议你将 此项目导入IDE 来开发和测试它。 IntelliJ IDEA 支持 Maven 项目开箱即用。如果你使用的是 Eclipse,使用m2e 插件 可以 导入 Maven 项目。 一些 Eclipse 捆绑包默认包含该插件,其他情况需要你手动安装。
out of the box:OOTB开箱即用
请注意:对 Flink 来说,默认的 JVM 堆内存可能太小,你应当手动增加堆内存。 在 Eclipse 中,选择 Run Configurations -> Arguments
并在 VM Arguments
对应的输入框中写入:-Xmx800m
。 在 IntelliJ IDEA 中,推荐从菜单 Help | Edit Custom VM Options
来修改 JVM 选项。有关详细信息,请参阅这篇文章。
构建项目
如果你想要 构建/打包你的项目,请在项目目录下运行 ‘mvn clean package
’ 命令。 命令执行后,你将 找到一个JAR文件,里面包含了你的应用程序,以及已作为依赖项添加到应用程序的连接器和库:target/<artifact-id>-<version>.jar
。
注意: 如果你使用其他类而不是 StreamingJob 作为应用程序的主类/入口, 我们建议你相应地修改 pom.xml
文件中的 mainClass
配置。这样, Flink 可以从 JAR 文件运行应用程序,而无需另外指定主类。
下一步
开始编写应用!
如果你准备编写流处理应用,正在寻找灵感来写什么, 可以看看流处理应用程序教程
如果你准备编写批处理应用,正在寻找灵感来写什么, 可以看看批处理应用程序示例
有关 API 的完整概述,请查看 DataStream API 和 DataSet API 章节。
在这里,你可以找到如何在 IDE 之外的本地集群中运行应用程序。
开发流程/开发八股文编程
set up the batch execution environment
getting some data from the environment
transform operations
开发的核心所在:开发业务逻辑execute program
功能拆解
1. 读取数据
2. 每一行的数据按照指定的分隔符拆分
3. 为每一个单词赋上次数为1的
4. 合并操作
实现:Flink + Scala
前置条件
The only requirements are working Maven 3.0.4 (or higher) and Java 8.x installations.
创建项目
Use one of the following commands to create a project:
-
$ mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-java \ -DarchetypeVersion=1.10.0
-
$ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.10.0
Scala与Java基本类似,但是代码量简单很多
使用Flink开发一个实时处理应用程序(Java/Scala)
Java代码:
public class StreamingWCJavaApp {
public static void main(String[] args) throws