flink java实战

最新推荐文章于 2024-09-27 19:00:00 发布

CodeMaster_37714848

最新推荐文章于 2024-09-27 19:00:00 发布

阅读量1.1k

点赞数 14

文章标签： flink java 大数据

本文链接：https://blog.csdn.net/m0_37714848/article/details/141817019

版权

Apache Flink 是一个强大的开源流处理框架，适用于大规模数据处理任务，支持流处理和批处理。以下是一些使用 Java 实现 Apache Flink 的实战步骤和示例：

1. 环境准备

确保你已经安装了以下软件：

Java Development Kit (JDK) 8 或更高版本
Apache Maven（用于构建项目）
Apache Flink（可以从 Apache Flink 官方网站下载）

2. 创建 Maven 项目

首先，使用 Maven 创建一个新的 Java 项目：

Apache Flink 是一个强大的开源流处理框架，适用于大规模数据处理任务，支持流处理和批处理。以下是一些使用 Java 实现 Apache Flink 的实战步骤和示例：

1. 环境准备

确保你已经安装了以下软件：

Java Development Kit (JDK) 8 或更高版本
Apache Maven（用于构建项目）
Apache Flink（可以从 Apache Flink 官方网站下载）

2. 创建 Maven 项目

首先，使用 Maven 创建一个新的 Java 项目：

mvn archetype:generate -DgroupId=com.example -DartifactId=flink-java-example -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
进入项目目录：

cd flink-java-example

3. 添加 Flink 依赖

编辑 pom.xml 文件，添加 Flink 依赖：

<dependencies>

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>1.16.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java</artifactId>
<version>1.16.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka</artifactId>
<version>1.16.0</version>
</dependency>

</dependencies>
4. 编写 Flink 程序

创建一个 Flink 程序示例，例如 WordCount.java：

package com.example;

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;

public class WordCount {

public static void main(String[] args) throws Exception {
// Set up the execution environment
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// Create a DataStream from a source (e.g., socket)
DataStream<String> text = env.socketTextStream("localhost", 9999);

// Parse the data, group it, and perform a windowed count
DataStream<Tuple2<String, Integer>> counts = text
.flatMap((String line, Collector<Tuple2<String, Integer>> out) -> {
// Normalize and split the line into words
String[] words = line.toLowerCase().split("\\W+");
// Emit the words
for (String word : words) {
if (word.length() > 0) {
out.collect(new Tuple2<>(word, 1));
}
}
})
.returns(Types.TUPLE(Types.STRING, Types.INT))
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);

// Print the results to stdout
counts.print();

// Execute the Flink job
env.execute("WordCount Example");
}
}

5. 运行 Flink 程序

你可以使用 Flink 的本地模式进行测试：

启动 Flink 集群：在 Flink 安装目录中，运行 bin/start-cluster.sh 启动本地 Flink 集群。
启动数据源：例如使用 nc 命令启动一个网络数据源：nc -lk 9999
编译和运行程序：mvn clean package java -cp target/flink-java-example-1.0-SNAPSHOT.jar com.example.WordCoun