快速上手开发第一个Flink应用程序

快速上手开发第一个Flink应用程序

开发环境准备

λ echo %JAVA_HOME% 
D:\Program Files\Java\jdk1.8.0_251

λ echo %MAVEN_HOME%
D:\Applications\apache-maven-3.6.3

使用Flink开发一个批处理应用程序(Java/Scala)

需求:词频统计(Word count)

一个文件,统计文件中每个单词出现的次数

分隔符是 \t

统计结果直接打印到控制台(生产上市Sink到目的地)

实现:Flink + Java

前置条件

The only requirements are working Maven 3.0.4 (or higher) and Java 8.x installations.

创建项目

Use one of the following commands to create a project:

  • Use Maven archetypes

        $ mvn archetype:generate                               \
          -DarchetypeGroupId=org.apache.flink              \
          -DarchetypeArtifactId=flink-quickstart-java      \
          -DarchetypeVersion=1.10.0
    
  • Run the quickstart script

        $ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.10.0
    
检查项目

项目创建后,工作目录将多出一个新目录。如果你使用的是 curl 方式创建项目,目录名为 quickstart; 如果你使用的是 Maven archetypes 方式创建项目,则目录名为你指定的 artifactId

$ tree quickstart/
quickstart/
├── pom.xml
└── src
    └── main
        ├── java
        │   └── org
        │       └── myorg
        │           └── quickstart
        │               ├── BatchJob.java
        │               └── StreamingJob.java
        └── resources
            └── log4j.properties

示例项目是一个 Maven project,它包含了两个类:StreamingJobBatchJob 分别是 DataStream and DataSet 程序的基础骨架程序。 main 方法是程序的入口,既可用于IDE测试/执行,也可用于部署。

我们建议你将 此项目导入IDE 来开发和测试它。 IntelliJ IDEA 支持 Maven 项目开箱即用。如果你使用的是 Eclipse,使用m2e 插件 可以 导入 Maven 项目。 一些 Eclipse 捆绑包默认包含该插件,其他情况需要你手动安装。

out of the box:OOTB开箱即用

请注意:对 Flink 来说,默认的 JVM 堆内存可能太小,你应当手动增加堆内存。 在 Eclipse 中,选择 Run Configurations -> Arguments 并在 VM Arguments 对应的输入框中写入:-Xmx800m。 在 IntelliJ IDEA 中,推荐从菜单 Help | Edit Custom VM Options 来修改 JVM 选项。有关详细信息,请参阅这篇文章

构建项目

如果你想要 构建/打包你的项目,请在项目目录下运行 ‘mvn clean package’ 命令。 命令执行后,你将 找到一个JAR文件,里面包含了你的应用程序,以及已作为依赖项添加到应用程序的连接器和库:target/<artifact-id>-<version>.jar

注意: 如果你使用其他类而不是 StreamingJob 作为应用程序的主类/入口, 我们建议你相应地修改 pom.xml 文件中的 mainClass 配置。这样, Flink 可以从 JAR 文件运行应用程序,而无需另外指定主类。

下一步

开始编写应用!

如果你准备编写流处理应用,正在寻找灵感来写什么, 可以看看流处理应用程序教程

如果你准备编写批处理应用,正在寻找灵感来写什么, 可以看看批处理应用程序示例

有关 API 的完整概述,请查看 DataStream APIDataSet API 章节。

这里,你可以找到如何在 IDE 之外的本地集群中运行应用程序。

开发流程/开发八股文编程
  1. set up the batch execution environment
  2. getting some data from the environment
  3. transform operations 开发的核心所在:开发业务逻辑
  4. execute program
功能拆解
1. 读取数据

2. 每一行的数据按照指定的分隔符拆分
3. 为每一个单词赋上次数为1的
4. 合并操作

实现:Flink + Scala

前置条件

The only requirements are working Maven 3.0.4 (or higher) and Java 8.x installations.

创建项目

Use one of the following commands to create a project:

  • Use Maven archetypes

        $ mvn archetype:generate                               \
          -DarchetypeGroupId=org.apache.flink              \
          -DarchetypeArtifactId=flink-quickstart-java      \
          -DarchetypeVersion=1.10.0
    
  • Run the quickstart script

        $ curl https://flink.apache.org/q/quickstart.sh | bash -s 1.10.0
    

Scala与Java基本类似,但是代码量简单很多

使用Flink开发一个实时处理应用程序(Java/Scala)

Java代码:

public class StreamingWCJavaApp {
   

    public static void main(String[] args) throws
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值