flink读取kafka

最新推荐文章于 2024-05-23 10:57:27 发布

꧁꫞ND꫞꧂

最新推荐文章于 2024-05-23 10:57:27 发布

阅读量954

点赞数

分类专栏： Flink

本文链接：https://blog.csdn.net/Baron_ND/article/details/109604237

版权

flink1.11.读取kafka数据

Watermark的核心本质可以理解成一个延迟触发机制。
在 Flink 的窗口处理过程中，如果确定全部数据到达，就可以对 Window 的所有数据做窗口计算操作（如汇总、分组等），如果数据没有全部到达，则继续等待该窗口中的数据全部到达才开始处理。这种情况下就需要用到水位线（WaterMarks）机制，它能够衡量数据处理进度（表达数据到达的完整性），保证事件数据（全部）到达 Flink 系统，或者在乱序及延迟到达时，也能够像预期一样计算出正确并且连续的结果。当任何 Event 进入到 Flink 系统时，会根据当前最大事件时间产生 Watermarks 时间戳。

那么 Flink 是怎么计算 Watermak 的值呢？

Watermark =进入Flink 的最大的事件时间(mxtEventTime)-指定的延迟时间(t)

那么有 Watermark 的 Window 是怎么触发窗口函数的呢？
如果有窗口的停止时间等于或者小于 maxEventTime - t(当时的warkmark)，那么这个窗口被触发执行。

二、Watermark的三种使用情况

1、本来有序的Stream中的 Watermark

如果数据元素的事件时间是有序的，Watermark 时间戳会随着数据元素的事件时间按顺序生成，此时水位线的变化和事件时间保持一直（因为既然是有序的时间，就不需要设置延迟了，那么t就是 0。所以 watermark=maxtime-0 = maxtime），也就是理想状态下的水位线。当 Watermark 时间大于 Windows 结束时间就会触发对 Windows 的数据计算，以此类推，下一个 Window 也是一样。这种情况其实是乱序数据的一种特殊情况。

2、乱序事件中的Watermark

现实情况下数据元素往往并不是按照其产生顺序接入到 Flink 系统中进行处理，而频繁出现乱序或迟到的情况，这种情况就需要使用 Watermarks 来应对。比如下图，设置延迟时间t为2。

3、并行数据流中的Watermark

在多并行度的情况下，Watermark 会有一个对齐机制，这个对齐机制会取所有 Channel 中最小的 Watermark。

三、设置Watermark的核心代码

1、首先，正确设置事件处理的时间语义，一般都是采用Event Time。

sEnv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

2、其次，指定生成Watermark的机制，包括：延时处理的时间和EventTime对应的字段。如下：

注意：不管是数据是否有序，都可以使用上面的代码。有序的数据只是无序数据的一种特殊情况。

四、Watermark编程案例

测试数据：基站的手机通话数据，如下：

下面给出代码demo

package com.hery.flink.java.constant;

/**
 * @description: 属性常量类
 * @author: Baron_ND
 * @create: 2020-11-03 09:09
 */
public class PropertiesConstants {

    public static final String KAFKA_BROKERS = "kafka.brokers";
    public static final String DEFAULT_KAFKA_BROKERS = "192.168.10.1:9092";
    public static final String KAFKA_ZOOKEEPER_CONNECT = "kafka.zookeeper.connect";
    public static final String DEFAULT_KAFKA_ZOOKEEPER_CONNECT = "192.168.10.9:2181";
    public static final String KAFKA_GROUP_ID = "kafka.group.id";
    public static final String DEFAULT_KAFKA_GROUP_ID = "testDemo";


}

创建kafka的配置信息类

package com.hery.flink.java.utils;

import com.hery.flink.java.constant.PropertiesConstants;
import org.apache.flink.api.java.utils.ParameterTool;

import java.util.Properties;

/**
 * @description: kafka的基础配置信息
 * @author: Baron_ND
 * @create: 2020-11-03 15:31
 */
public class KafkaConfigUtil {
    /**
     * 设置基础的 Kafka 配置
     *
     * @return
     */
    public static Properties buildKafkaProps() {
        return buildKafkaProps(ParameterTool.fromSystemProperties());
    }

    /**
     * 设置 kafka 配置
     *
     * @param parameterTool
     * @return
     */
    public static Properties buildKafkaProps(ParameterTool parameterTool) {
        Properties props = parameterTool.getProperties();
        props.put("bootstrap.servers", parameterTool.get(PropertiesConstants.KAFKA_BROKERS, PropertiesConstants.DEFAULT_KAFKA_BROKERS));
        props.put("group.id", parameterTool.get(PropertiesConstants.KAFKA_GROUP_ID, PropertiesConstants.DEFAULT_KAFKA_GROUP_ID));
//        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
//        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        return props;
    }
}

实现主类

package com.hery.flink.java.connector.kafka.read;

import com.hery.flink.java.utils.ExecutionEnvUtil;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;
import org.apache.flink.util.Collector;

import java.time.Duration;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;

import static com.hery.flink.java.utils.KafkaConfigUtil.buildKafkaProps;

/**
 * @description: 消费kafka数据，第二种方式加上watermark，
 * 测试一个demo，统计窗口内通话时间最长的输出,结果例如：
 * 5> 窗口大小:0 - 3000
 * 会话ID：yss010,时间：90,发起：美国,接收：韩国,会话的持续时间：1
 * @author: Baron_ND
 * @create: 2020-11-10 09:04
 */
public class ConsumerKafkaV2 {
    public static void main(String[] args) throws Exception {
        final ParameterTool parameterTool =ParameterTool.fromArgs(args);
        StreamExecutionEnvironment env = ExecutionEnvUtil.prepare(parameterTool);
        Properties props = buildKafkaProps(parameterTool);
        //kafka topic list
        List<String> topics = Arrays.asList("kafka-testv1","kafka-testv2");
        FlinkKafka

最低0.47元/天解锁文章

꧁꫞ND꫞꧂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
flink读取kafka

flink1.11.读取kafka数据Watermark的核心本质可以理解成一个延迟触发机制。在 Flink 的窗口处理过程中，如果确定全部数据到达，就可以对 Window 的所有数据做窗口计算操作（如汇总、分组等），如果数据没有全部到达，则继续等待该窗口中的数据全部到达才开始处理。这种情况下就需要用到水位线（WaterMarks）机制，它能够衡量数据处理进度（表达数据到达的完整性），保证事件数据（全部）到达 Flink 系统，或者在乱序及延迟到达时，也能够像预期一样计算出正确并且连续的结果。
复制链接

扫一扫