Flink

最新推荐文章于 2024-11-15 09:38:39 发布

傲雪凌霜，松柏长青

最新推荐文章于 2024-11-15 09:38:39 发布

阅读量1k

点赞数 21

分类专栏：后端大数据文章标签： flink 大数据

本文链接：https://blog.csdn.net/Casual_Lei/article/details/142070695

版权

后端同时被 2 个专栏收录

106 篇文章 1 订阅

订阅专栏

大数据

38 篇文章 0 订阅

订阅专栏

Apache Flink 是一个开源的、面向流处理和批处理的分布式计算框架。它能够以低延迟和高吞吐量的方式处理海量数据，适用于实时数据处理、事件驱动应用和数据分析等场景。

核心特性

实时流处理（True Streaming）：
Flink 提供真正的流处理能力，与基于微批处理的系统（如 Spark Streaming）不同，Flink 的数据流以记录为单位进行处理，具备毫秒级的延迟。
事件时间处理和水印机制：
Flink 支持基于事件时间的处理，可以处理乱序到达的数据，通过水印（Watermark）机制来处理延迟和乱序的数据流，保证数据处理的准确性。
状态管理和容错机制：
Flink 内置强大的状态管理，支持有状态的流处理。它的状态可以存储在内存或外部存储中，支持精确一次（Exactly-Once）语义。Flink 通过分布式快照（Checkpointing）和保存点（Savepoints）实现容错和故障恢复。
批处理与流处理统一：
Flink 提供了统一的批处理和流处理 API，允许开发者使用相同的代码和数据流模型来处理批数据和流数据。
高度可扩展性和性能：
Flink 的架构设计使其能够在大规模集群上运行，支持横向扩展，能够处理 TB 级别的数据量。同时，它对内存和计算资源的高效利用，提供了卓越的性能。
丰富的连接器和生态系统集成：
Flink 提供了与各种数据源和接收器的连接器，包括 Kafka、HBase、Cassandra、Elasticsearch 等，方便集成到现有的大数据生态系统中。

Flink 的架构

Flink 的架构主要由以下组件构成：

Job Manager（作业管理器）：
负责集群资源的管理、任务的调度和协调。Job Manager 接收应用程序代码，生成执行图，并分发给 Task Managers。
Task Manager（任务管理器）：
实际执行数据处理任务的工作节点，负责执行任务的并行实例，管理任务的状态和缓冲数据。
Client（客户端）：
用户提交作业的接口，可以通过命令行、Java/Scala API 或 Web 界面提交。

编程模型

Flink 提供了多层次的 API，满足不同层次的开发需求：

Process Function：
最底层的 API，提供对流处理的细粒度控制，适用于复杂的状态操作和事件时间处理。
DataStream API：
面向流处理的核心 API，支持丰富的操作，如转换、聚合、窗口、联结等。
DataSet API：
面向批处理的核心 API，适用于处理离线的批数据。
Table API 和 SQL：
提供了类似 SQL 的高级 API，方便进行关系型操作，支持批处理和流处理。

使用场景

实时数据分析：
如实时统计、监控报警系统，Flink 能够以低延迟处理数据流，实现实时分析和可视化。
事件驱动应用：
处理来自物联网设备、用户行为日志等的事件流，执行复杂的事件关联和响应。
机器学习：
在线特征提取和模型更新，Flink 的流处理能力适合于实时机器学习任务。
ETL 和数据管道：
构建实时的数据提取、转换和加载（ETL）流程，将数据从各种源实时传输到目标系统。

与其他框架的比较

与 Apache Spark：
Spark Streaming 采用微批处理模式，将实时数据划分为小批次处理，而 Flink 提供真正的流处理，具有更低的延迟。
与 Apache Storm：
Storm 也是实时流处理框架，但 Flink 提供了更高级的 API、更强的状态管理和容错机制，以及更好的性能优化。

示例代码

以下是一个使用 Flink 的简单示例，演示如何计算实时数据流中的单词计数。

依赖引入

在 Maven 项目中，引入 Flink 的依赖：

<dependencies>
    <!-- Flink 核心依赖 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_2.12</artifactId>
        <version>1.16.0</version>
    </dependency>
</dependencies>

示例代码

import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;

public class FlinkWordCount {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 从 Socket 文本流读取数据（假设在本地的 9000 端口）
        DataStream<String> text = env.socketTextStream("localhost", 9000, "\n");

        // 解析数据，按单词计数
        DataStream<WordWithCount> windowCounts = text
                .flatMap((String value, out) -> {
                    for (String word : value.split("\\s")) {
                        out.collect(new WordWithCount(word, 1L));
                    }
                })
                .returns(WordWithCount.class)
                .keyBy(value -> value.word)
                .timeWindow(Time.seconds(5)) // 每隔5秒计算一次
                .sum("count");

        // 打印结果到控制台
        windowCounts.print().setParallelism(1);

        // 执行程序
        env.execute("Flink Streaming Word Count");
    }

    // 定义用于存储单词和计数的类
    public static class WordWithCount {
        public String word;
        public long count;

        // 必须有无参构造方法
        public WordWithCount() {}

        public WordWithCount(String word, long count) {
            this.word = word;
            this.count = count;
        }

        @Override
        public String toString() {
            return word + " : " + count;
        }
    }
}