某日笔者接到大数据集群使用人员紧急求救,反馈其在用的星环大数据tdh集群遇到以下故障无法解决,影响集群使用无法运行大数据计算任务。其反馈的问题现象如下:
tdh集群响应慢且不稳定,在transwarp manager server节点(tdh1)节点的管控台页面,可以发现有以下告警:tos运行异常,license运行异常,guardian运行异常;通过tdh管控台页面重启部分服务如inceptor, hdfs时,经常会出现服务重启失败,尝试重启整个tdh集群也会报重启失败。仔细排查某些服务如hdfs,inceptor的状态,有时会发现这些服务在tdh1节点上的角色有报异常,在其他节点的角色则还好。
笔者接到问题反馈后,首先登陆tdh管控台,观察确认集群使用人员反馈的异常现象,确实如其所述;然后为了进一步排查,登录了tdh1服务器节点,查看服务的状态,服务的具体日志信息和服务器的负载。
在查看服务状态时 (可以通过命令systemctl status transwarp-manager/transwarp-manager-agent查看),和查看服务日志时(可以通过命令
kubectl log hadoop-hdfs-namenode-hdfs1-8c8749f94-rfgrp -c hadoop-hdfs-namenode-hdfs1查看),都发现tdh1节点卡顿严重响应很慢,而tdh2和tdh3则比较顺畅。
进一步查看服务器负载时,通过free -h 发现tdh1节点占用的内存相比于tdh2和t