从零开始学Flink：实时流处理实战

代码匠心

已于 2025-10-07 17:06:03 修改

阅读量1k

点赞数 24

CC 4.0 BY-SA版权

分类专栏：从零开始学flink 文章标签： flink 大数据 java 后端

于 2025-10-07 17:03:47 首次发布

本文链接：https://blog.csdn.net/jackelee90/article/details/152664629

在大数据处理领域，实时流处理正变得越来越重要。Apache Flink作为领先的流处理框架，提供了强大而灵活的API来处理无界数据流。本文将通过经典的SocketWordCount示例，深入探讨Flink实时流处理的核心概念和实现方法，帮助你快速掌握Flink流处理的实战技能。

一、实时流处理概述

1. 流处理的基本概念

流处理是一种持续处理无界数据的计算范式。与批处理不同，流处理系统需要在数据到达时立即处理，而不是等待完整数据集收集完毕。在Flink中，所有数据都被视为流，无论是有界的历史数据还是无界的实时数据流。

2. Flink流处理的优势

低延迟： 毫秒级的数据处理延迟
高吞吐： 能够处理大规模的数据流量
精确一次处理： 通过检查点机制确保数据只被处理一次
灵活的时间语义： 支持处理时间、事件时间和摄取时间
丰富的状态管理： 内置多种状态后端，支持大规模状态存储

二、环境准备与依赖配置

1. 版本说明

Flink：1.20.1
JDK：17+
Gradle：8.3+

2. 核心依赖

dependencies {
    // Flink核心依赖
    implementation 'org.apache.flink:flink_core:1.20.1'
    implementation 'org.apache.flink:flink-streaming-java:1.20.1'
    implementation 'org.apache.flink:flink-clients:1.20.1'

}

三、SocketWordCount示例详解

1. 功能介绍

SocketWordCount是Flink中的经典示例，它通过Socket接收实时数据流，对数据流中的单词进行计数，并将结果实时输出。这个示例虽然简单，但包含了Flink流处理的核心要素：数据源连接、数据转换、并行处理和结果输出。

2. 完整代码实现

package com.cn.daimajiangxin.flink;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class SocketWordCount {
   
   

    public static void main(String[] args) throws Exception {
   
   
        // 1. 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 启用检查点，确保容错性
        env.enableCheckpointing(5000); // 每5秒创建一次检查点

        // 设置并行度
        env.setParallelism(2);

        // 2. 从Socket读取数据
        String hostname = "localhost";
        int port = 9999;

        // 支持命令行参数传入
        if (args.length > 0) {
   <