flink的taskmanager的端口占用情况是动态分配的,因此在promethues的监控targets配置也采用了脚本动态拉取更新:
1. 先连接zookeeper,查看flinkNodes的注册信息,获取ip节点信息
2. 登录节点,通过jps获取活跃taskmanager的端口号。
3. 生成flink的targets监控目标配置文件。
于是:
处理节点宕机失效的taskmanager报警:
1. 登录zookeeper服务器,进入zookeeper安装目录,执行 sh zkCli.sh 进入zookeeper client。
2. ls / 查看注册情况,会看到flinkNodes,执行 ls /flinkNodes 看到ip信息。
3. 把失效的节点删掉,deleteall /flinkNodes/X.X.X.X。
于是在下一次promethues更新flink信息的时候,targets中就不会再有失效节点了。

本文介绍了如何处理Flink TaskManager因节点宕机或进程异常引发的报警。通过Zookeeper获取节点信息,删除失效节点,并通过Prometheus更新监控目标。对于进程异常,通过netstat和ps命令定位问题进程,分析日志排查故障,必要时直接kill进程以触发自动重启。
最低0.47元/天 解锁文章
1210

被折叠的 条评论
为什么被折叠?



