flink的taskmanager的端口占用情况是动态分配的,因此在promethues的监控targets配置也采用了脚本动态拉取更新:
1. 先连接zookeeper,查看flinkNodes的注册信息,获取ip节点信息
2. 登录节点,通过jps获取活跃taskmanager的端口号。
3. 生成flink的targets监控目标配置文件。
于是:
处理节点宕机失效的taskmanager报警:
1. 登录zookeeper服务器,进入zookeeper安装目录,执行 sh zkCli.sh 进入zookeeper client。
2. ls / 查看注册情况,会看到flinkNodes,执行 ls /flinkNodes 看到ip信息。
3. 把失效的节点删掉,deleteall /flinkNodes/X.X.X.X。
于是在下一次promethues更新flink信息的时候,targets中就不会再有失效节点了。