Flink taskmanager因节点宕机失效或进程异常导致的报警处理

本文介绍了如何处理Flink TaskManager因节点宕机或进程异常引发的报警。通过Zookeeper获取节点信息,删除失效节点,并通过Prometheus更新监控目标。对于进程异常,通过netstat和ps命令定位问题进程,分析日志排查故障,必要时直接kill进程以触发自动重启。
摘要由CSDN通过智能技术生成

flink的taskmanager的端口占用情况是动态分配的,因此在promethues的监控targets配置也采用了脚本动态拉取更新:

1. 先连接zookeeper,查看flinkNodes的注册信息,获取ip节点信息

2. 登录节点,通过jps获取活跃taskmanager的端口号。

3. 生成flink的targets监控目标配置文件。

 

于是:

处理节点宕机失效的taskmanager报警:

1. 登录zookeeper服务器,进入zookeeper安装目录,执行 sh zkCli.sh  进入zookeeper client。

2. ls / 查看注册情况,会看到flinkNodes,执行 ls /flinkNodes 看到ip信息。

3. 把失效的节点删掉,deleteall /flinkNodes/X.X.X.X。

于是在下一次promethues更新flink信息的时候,targets中就不会再有失效节点了。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值