【Flink】FLink checkpoint 某个 subtask 特别耗时 DisconnectException: null

838 篇文章 848 订阅 ¥99.90 ¥299.90
在Flink作业中,发现某个Subtask的Checkpoint时间显著高于其他Subtask,且出现Kafka的DisconnectException错误。调整request.timeout.ms后,异常减少但Checkpoint延迟增加。日志显示问题可能与网络稳定性、Kafka源端背压及特定Subtask的TM(TaskManager)PS_Scavenge次数过多有关。考虑到可能是由于keyby操作中使用了三个中文字符拼接的key导致内存消耗过大,怀疑与机器资源分配及内存管理配置有关。尽管调整TM内存有一定效果,但问题依然存在,且每次重启作业,问题Subtask ID保持不变,表明这可能是固定资源分配问题。
摘要由CSDN通过智能技术生成

文章目录


在这里插入图片描述

1.概述

遇到有遇到过这种情况的么?某个subtask的ck时间总是比其他的subtask久很多,检查各个subtask的消费,也没有数据倾斜,好几次ck超时都是被这个subtask拖垮的

在这里插入图片描述
日志开始报org.apache.kafka.common.errors.DisconnectException: null,调整request.timeout.ms后就不怎么报了。

TM的PS_Scavenge次数较大,但是3个TM都较大,唯独每次都是同一个subtask的ck时间较突出。

作业背压在kafka source端,下游数据处理也没有背压啊。

我觉得调大request.timeout,虽然kafka不超时了,但是拖得时间长了,导致ck start delay 久了?

因为根据文章:Kafka : kafka errors.DisconnectException: null

DisconnectException: null 这个和网络有关,应该是网络不好,这个报错和kafka 不稳定有关 检测topic详情 网络稳定性等。

做ck的时候 会提交offset 如果提

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九师兄

你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值