flink大数据

weixin_38704979

已于 2024-01-27 12:30:32 修改

阅读量372

点赞数 3

文章标签： java

于 2024-01-27 11:28:41 首次发布

本文链接：https://blog.csdn.net/weixin_38704979/article/details/135879739

版权

本文介绍了ApacheFlink，一个支持高性能流式数据处理的框架，重点讲解了其核心特性如事件时间处理、无界和有界数据流、事件驱动模型、窗口操作，以及JobManager和TaskManager的角色。此外，文章还涵盖了分布式快照、API和生态系统以及典型应用场景。

摘要由CSDN通过智能技术生成

flink大数据流式处理技术入门

Apache Flink

简介

Apache Flink是一个开源的流式数据处理框架，支持高性能、可扩展、容错的分布式流处理应用。

核心特性

1. 流式处理

Flink支持基于事件时间的流式数据处理，能够处理无界和有界数据流。

事件时间（Event Time）
事件时间是指事件实际发生的时间，而不是事件被处理或记录的时间。在流式处理中，事件时间非常重要，因为数据流中的事件可能是乱序的，即事件的到达顺序可能与其实际发生时间不一致。使用事件时间可以更准确地反映数据流的真实情况。
无界数据流和有界数据流
无界数据流（Unbounded Data Stream）：数据流是无限的，没有明确定义的结束。典型的无界数据流包括实时产生的日志、传感器数据等。流处理框架需要能够处理这样的无限流，并在事件时间上提供准确的处理。

有界数据流（Bounded Data Stream）：数据流有一个明确定义的结束，比如一段时间内的日志、历史订单记录等。这样的数据流在处理时可以考虑更多的批处理优化。

Flink对事件时间和无界/有界数据流的支持
Flink提供了一套机制来处理事件时间，并能够处理无界和有界数据流。它通过引入水位线（watermark）来处理乱序事件，确保事件按照实际发生时间进行处理。水位线是一种衡量事件时间进展的机制，帮助Flink更好地处理乱序事件。
代码示例
下面是一个简单的Flink代码示例，演示了如何在事件时间上对无界数据流进行窗口计算：

import org.apache.flink.api.common.eventtime.*;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class EventTimeProcessing {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 从数据源读取数据流，示例中使用Socket
        DataStream<String> stream = env.socketTextStream("localhost", 9999);

        // 解析输入，生成 Tuple2<单词, 事件时间>
        DataStream<Tuple2<String, Long>> wordsWithTimestamps = stream
                .flatMap(new Tokenizer())
                .assignTimestampsAndWatermarks(new CustomWatermarkExtractor());

        // 在事件时间上进行窗口计算
        DataStream<Tuple2<String, Long>> result = wordsWithTimestamps
                .keyBy(0)
                .timeWindow(Duration.ofMinutes(1))
                .sum(1);

        // 打印结果
        result.print();

        // 执行作业
        env.execute("EventTimeProcessing");
    }

    // Tokenizer 实现 FlatMapFunction 接口用于单词拆分
    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Long>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Long>> out) {
            String[] words = value.toLowerCase().split("\\W+");
            for (String word : words) {
                if (word.length() > 0) {
                    out.collect(new Tuple2<>(word, System.currentTimeMillis()));
                }
            }
        }
    }

    // CustomWatermarkExtractor 实现 AssignerWithPeriodicWatermarks 接口用于生成水位线
    public static final class CustomWatermarkExtractor implements AssignerWithPeriodicWatermarks<Tuple2<String, Long>> {
        @Override
        public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
            return element.f1; // 使用元组中的事件时间
        }

        @Override
        public Watermark getCurrentWatermark() {
            // 在这个示例中，简单地将当前时间作为水位线
            return new Watermark(System.currentTimeMillis());
        }
    }
}

2. 事件驱动

Flink采用事件驱动模型，能够实时响应输入事件并进行处理。
事件驱动模型：在事件驱动模型中，系统的状态和流程的演进主要由外部事件的发生和传递来触发。这与传统的基于轮询的模型不同，后者是按照固定的时间间隔周期性地检查事件是否发生。

实时响应输入事件： Flink的事件驱动模型使其能够实时响应输入事件。当有新的事件到达系统时，Flink能够立即处理这些事件，而不需要等待下一个批处理作业的开始。

处理过程：在事件驱动模型中，处理是基于事件流动而不是按照固定的时间点。当事件到达系统时，Flink将执行相应的处理逻辑。这使得Flink能够实现低延迟的流式处理，适用于需要实时洞察和快速响应的场景。

异步处理：事件驱动模型支持异步处理，即在处理一个事件时，系统可以继续处理其他事件而无需等待。这提高了系统的吞吐量和并发性。

状态管理： Flink的事件驱动模型还与状态管理紧密关联。系统可以在处理事件的同时维护和更新状态，这使得Flink能够处理更复杂的应用场景，如状态ful应用、迭代处理等。

通过采用事件驱动模型，Flink能够更好地适应实时流式处理的需求，同时保持高效、低延迟的特性。这种模型使得Flink能够更紧密地与实时数据流互动，而不是按照固定的时间片断进行处理。

3. 窗口操作

支持基于时间或者数量的窗口操作，便于对数据进行切分和聚合。
支持基于时间或数量的窗口操作是流处理框架中常见的功能，它允许你对数据流进行切分并在每个窗口内执行聚合操作。这种方式使得你可以以时间或者事件数量为单位来组织和处理数据，适应不同的业务需求。Apache Flink提供了丰富的窗口操作支持，以下是一些概念的详细解释：

基于时间的窗口操作：这种窗口操作是基于事件时间或处理时间的时间范围来进行的。你可以定义滚动窗口（Tumbling Windows）、滑动窗口（Sliding Windows）或会话窗口（Session Windows）等不同类型的窗口来对数据流进行划分。

基于数量的窗口操作：这种窗口操作是基于一定数量的事件来进行的。例如，你可以定义一个大小为100的窗口，每当流中有100个事件到达时，就对这100个事件执行一次聚合操作。

以下是一个简单的Flink示例，演示了如何在基于事件时间的滚动窗口内对数据流进行聚合：

import org.apache.flink.api.common.eventtime.*;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;

public class TimeWindowExample {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 从数据源读取数据流，示例中使用Socket
        DataStream<String> stream = env.socketTextStream("localhost", 9999);

        // 解析输入，生成 Tuple2<单词, 事件时间>
        DataStream<Tuple2<String, Long>> wordsWithTimestamps = stream
                .flatMap(new Tokenizer())
                .assignTimestampsAndWatermarks(new CustomWatermarkExtractor());

        // 在事件时间上进行滚动窗口计算
        DataStream<Tuple2<String, Long>> result = wordsWithTimestamps
                .keyBy(0)
                .timeWindow(Time.minutes(1))
                .sum(1);

        // 打印结果
        result.print();

        // 执行作业
        env.execute("TimeWindowExample");
    }

    // Tokenizer 实现 FlatMapFunction 接口用于单词拆分
    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Long>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Long>> out) {
            String[] words = value.toLowerCase().split("\\W+");
            for (String word : words) {
                if (word.length() > 0) {
                    out.collect(new Tuple2<>(word, System.currentTimeMillis()));
                }
            }
        }
    }

    // CustomWatermarkExtractor 实现 AssignerWithPeriodicWatermarks 接口用于生成水位线
    public static final class CustomWatermarkExtractor implements AssignerWithPeriodicWatermarks<Tuple2<String, Long>> {
        @Override
        public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
            return element.f1; // 使用元组中的事件时间
        }

        @Override
        public Watermark getCurrentWatermark() {
            // 在这个示例中，简单地将当前时间作为水位线
            return new Watermark(System.currentTimeMillis());
        }
    }
}