kafka sink mysql_Flink实现Kafka到Mysql的Exactly-Once

最新推荐文章于 2023-01-09 18:01:17 发布

VIP文章 weixin_39861882

最新推荐文章于 2023-01-09 18:01:17 发布

阅读量268

点赞数

文章标签： kafka sink mysql

本文链接：https://blog.csdn.net/weixin_39861882/article/details/113683332

版权

一、背景

最近项目中使用Flink消费kafka消息，并将消费的消息存储到mysql中，看似一个很简单的需求，在网上也有很多flink消费kafka的例子，但看了一圈也没看到能解决重复消费的问题的文章，于是在flink官网中搜索此类场景的处理方式，发现官网也没有实现flink到mysql的Exactly-Once例子，但是官网却有类似的例子来解决端到端的仅一次消费问题。这个现成的例子就是FlinkKafkaProducer011这个类，它保证了通过FlinkKafkaProducer011发送到kafka的消息是Exactly-Once的，主要的实现方式就是继承了TwoPhaseCommitSinkFunction这个类，关于TwoPhaseCommitSinkFunction这个类的作用可以先看上一篇文章https://blog.51cto.com/simplelife/2401411。

二、实现思想

这里简单说下这个类的作用就是实现这个类的方法：beginTransaction、preCommit、commit、abort，达到事件(preCommit)预提交的逻辑(当事件进行自己的逻辑处理后进行预提交，如果预提交成功之后才进行真正的(commit)提交，如果预提交失败则调用abort方法进行事件的回滚操作)，结合flink的checkpoint机制，来保存topic中partition的offset。

达到的效果我举个例子来说明下：比如checkpoint每10s进行一次，此时用FlinkKafkaConsumer011实时消费kafka中的消息，消费并处理完消息后，进行一次预提交数据库的操作，如果预提交没有问题，10s后进行真正的插入数据库操作，如果插入成功，进行一次checkpoint，flink会自动记录消费的offset，可以将checkpoint保存的数据放到hdfs中，如果预提交出错，比如在5s的时候出错了，此时Flink程序就会进入不断的重启中，重启的策略可以在配置中设置，当然下一次的checkpoint也不会做了，checkpoint记录的还是上一次成功消费的offset，本次消费的数据因为在checkpoint期间，消费成功，但是预提交过程中失败了，注意此时数据并没有真正的执行插入操作，因为预提交(preCommit)失败，提交(commit)过程也不会发生了。等你将异常数据处理完成之后，再重新启动这个Flink程序，它会自动从上一次成功的checkpoint中继续消费数据，以此来达到Kafka到Mysql的Exactly-Once。

三、具体实现代码三个类

1、StreamDemoKafka2Mysql.javapackage com.fwmagic.flink.streaming;

import com.fwmagic.flink.sink.MySqlTwoPhaseCommitSink;

import org.apache.flink.runtime.state.filesystem.FsStateBackend;

import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.node.ObjectNode;

import org.apache.flink.streaming.api.CheckpointingMode;

import org.apache.flink.streaming.api.datastream.DataStreamSource;

import org.apache.flink.streaming.api.environment.CheckpointConfig;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumerBase;

import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;

import org.apache.kafka.clients.consumer.ConsumerConfig;

import java.util.Properties;

/**

* 消费kafka消息，sink(自定义)到mysql中，保证kafka to mysql的Exactly-Once

@SuppressWarnings("all")

public class StreamDemoKafka2Mysql {

public static void main(String[] args) throws Exception {

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

//设置并行度，为了方便测试，查看消息的顺序，这里设置为1，可以更改为多并行度

env.setParallelism(1);

//checkpoint设置

//每隔10s进行启动一个检查点【设置checkpoint的周期】

env.enableCheckpointing(10000);

//设置模式为：exactly_one，仅一次语义

env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

//确保检查点之间有1s的时间间隔【checkpoint最小间隔】

env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);

//检查点必须在10s之内完成，或者被丢弃【checkpoint超时时间】

env.getCheckpointConfig().setCheckpointTimeout(10000);

//同一时间只允许进行一次检查点

env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);

//表示一旦Flink程序被cancel后，会保留checkpoint数据，以便根据实际需要恢复到指定的checkpoin

最低0.47元/天解锁文章

weixin_39861882

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kafka sink mysql_Flink实现Kafka到Mysql的Exactly-Once

一、背景最近项目中使用Flink消费kafka消息，并将消费的消息存储到mysql中，看似一个很简单的需求，在网上也有很多flink消费kafka的例子，但看了一圈也没看到能解决重复消费的问题的文章，于是在flink官网中搜索此类场景的处理方式，发现官网也没有实现flink到mysql的Exactly-Once例子，但是官网却有类似的例子来解决端到端的仅一次消费问题。这个现成的例子就是FlinkK...
复制链接

扫一扫