k8s_node节点得pod频繁重启排查原因

一、背景

最近flink在执行任务时频繁报错,提示连接taskmanager超时,在flink任务报错5-6次后,该任务变以faled状态结束,导致我们得数据没有进行实时传输

二、问题排查

通过查看flink job-mangager和task-manager日志查看返现刚刚启动没有久得flink任务存在连接taskmanager超时问题,观察flink得task-manager得pod状态,确实是刚刚启动几十分钟,为什么taskmanager会发生重启呢,而其他的taskmanager均在正常运行使用kubectl get pod -o wide -n ns| grep flink发现重启的task-manager均在同一节点,于是便怀疑这台节点有问题。
首先查看node状态,正常OK
再查看组件运行状态,kubelete、flanneld、kube-proxy等,OK没有重启现象
既然k8s集群没问题,那么就是网络有问题,仔细排查,发现到网关也正常,通过命令ifconfig发现很重要的问题
在这里插入图片描述
这个bond0网卡有个dropped 6但是其他机器都是0,于是上网查了以下发现:TX dropped “发送时,丢弃的数据包数“。
这样原因就找到了,既然是网络问题,那就从网络排查,因为是bond模式所以不应该存在底层网络链接的问题,那就只能是Bond模式有问题了。
使用命令查看:cat /proc/net/bonding/bond0
在这里插入图片描述
哦豁、问题出来了,配置的bond1模式没有生效,因为网络那边的人说,交换机只识别bond1模式,具体不清楚,查看Bond配置没问题,那就使用命令:modprobe -r bonding使bond1模式生效。然后重启网卡,成功改为bond1模式,至此没有丢包现象,观察一天后,taskmanager正常运行,问题圆满解决。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值