kafka topic 一段时间不消费_Flink消费kafka的多分区topic时遇见的问题探究

最新推荐文章于 2024-04-29 23:23:54 发布

飛毛腿岡薩雷斯

最新推荐文章于 2024-04-29 23:23:54 发布

阅读量1.5k

点赞数

文章标签： kafka topic 一段时间不消费

本文链接：https://blog.csdn.net/weixin_28889007/article/details/112076400

版权

本文探讨了Flink消费Kafka多分区topic时遇到的问题，当执行相同查询两次，结果出现差异。原因是Flink从earliest-offset开始消费，导致watermark不准确，可能丢弃部分数据。解决方案包括减少Kafka分区或调整watermark延迟时间。

摘要由CSDN通过智能技术生成

感谢您抽出

来阅读本文

FlinkSql消费Kafka的多分区topic，并实时计算指标，同样的Sql第一次执行和第二次执行结果不一样？

问题描述：

初始条件：Flink版本 1.11，kafka版本0.10，kafka的topic为message-json，3个分区，kafka内没有数据。

在Flink的sql-client端执行创建kafkasource table：

create table iservVisit (    type string comment '时间类型',    uuid string comment '用户uri',    clientTime string comment '10位时间戳',    rowtime as to_timestamp(from_unixtime(cast(substring(coalesce(clientTime, '0'), 1, 10) as bigint))), -- 计算列, 10位时间戳转为timestamp类型    WATERMARK for rowtime as rowtime - INTERVAL '1' MINUTE -- 计算列, 作为watermark) with (    'connector' = 'kafka',    'topic' = 'message-json',    'properties.bootstrap.servers' = 'localhost:9092',    'properties.group.id' = 'consumer-rt',    'format' = 'json',    'json.ignore-parse-errors' = 'true',    'scan.startup.mode' = 'earliest-offset')

然后再执行如下语句，实时生成指标，通过窗口做pv/uv的计算：

select      tumble_start(rowtime, interval '2' MINUTE) as wStart,    tumble_end(rowtime, interval '2' MINUTE) as wEnd,    count(1) as pv,    count(distinct uuid) as uv from iservVisitgroup by tumble(rowtime, interval '2' MINUTE)

这时开始手动一条一条往kafka中发送数据：

      kafka记录                                                      clientTime消息时间    产生的watermark时间   说明{"type":

最低0.47元/天解锁文章

飛毛腿岡薩雷斯

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kafka topic 一段时间不消费_Flink消费kafka的多分区topic时遇见的问题探究

感谢您抽出..来阅读本文FlinkSql消费Kafka的多分区topic，并实时计算指标，同样的Sql第一次执行和第二次执行结果不一样？问题描述：初始条件：Flink版本 1.11，kafka版本0.10，kafka的topic为message-json，3个分区，kafka内没有数据。在Flink的sql-client端执行创建kafkasource table：create tabl...
复制链接

扫一扫