Flink和Kafka端到端数据一致性

Flink内部

把Checkpoint开启,设置Checkpoint模式为EXACTLY_ONCE

env.enableCheckpointing(1000*10L);
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

KafkaSource

当Flink开启Checkpoint时,Kafka的offset会在Checkpoint的时候,把偏移量保存到状态后端(也会提交到kafka中一份)。 注意,在这个场景中,Kafka设置的Properties 中的自动定期 offset 提交设置会被完全忽略。
注意:Kafka source 不依赖于 broker 上提交的位点来恢复失败的作业。提交位点只是为了上报 Kafka consumer 和消费组的消费进度,以在 broker 端进行监控。

KafkaSink

DataStream stream =;

Properties properties = new Properties(); 
properties.setProperty(“bootstrap.servers”, “localhost:9092);
properties.setProperty(“transaction.timeout.ms”,1000*60*5+"");

FlinkKafkaProducer myProducer = new FlinkKafkaProducer( “my-topic”, // 目标 topic 
new SimpleStringSchema(), // 序列化 schema 
properties, // producer 配置 
FlinkKafkaProducer.Semantic.EXACTLY_ONCE); // 容错

stream.addSink(myProducer);

1、设置FlinkKafkaProducer的语义为EXACTLY_ONCE(默认为AT_LEAST_ONCE)
2、设置Kafka的事务隔离级别isolation.level = read_committed(默认为read_uncommitted)
3、设置transaction.timeout.ms小于15分钟
注意:默认情况下,Kafka broker 将 transaction.max.timeout.ms 设置为 15 分钟。此属性不允许为大于其值的 producer 设置事务超时时间。 默认情况下,FlinkKafkaProducer 将 producer config 中的 transaction.timeout.ms 属性设置为 1 小时,因此在使用 Semantic.EXACTLY_ONCE 模式之前应该增加 transaction.max.timeout.ms 的值。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值