linux卡顿问题排查_记一次星环大数据tdh集群中因某节点systemd服务进程bug而引起大数据集群异常问题的排查与修复...

       某日笔者接到大数据集群使用人员紧急求救,反馈其在用的星环大数据tdh集群遇到以下故障无法解决,影响集群使用无法运行大数据计算任务。其反馈的问题现象如下:

       tdh集群响应慢且不稳定,在transwarp manager server节点(tdh1)节点的管控台页面,可以发现有以下告警:tos运行异常,license运行异常,guardian运行异常;通过tdh管控台页面重启部分服务如inceptor, hdfs时,经常会出现服务重启失败,尝试重启整个tdh集群也会报重启失败。仔细排查某些服务如hdfs,inceptor的状态,有时会发现这些服务在tdh1节点上的角色有报异常,在其他节点的角色则还好。

      笔者接到问题反馈后,首先登陆tdh管控台,观察确认集群使用人员反馈的异常现象,确实如其所述;然后为了进一步排查,登录了tdh1服务器节点,查看服务的状态,服务的具体日志信息和服务器的负载。

   在查看服务状态时 (可以通过命令systemctl status transwarp-manager/transwarp-manager-agent查看),和查看服务日志时(可以通过命令

kubectl log hadoop-hdfs-namenode-hdfs1-8c8749f94-rfgrp -c hadoop-hdfs-namenode-hdfs1查看),都发现tdh1节点卡顿严重响应很慢,而tdh2和tdh3则比较顺畅。

    进一步查看服务器负载时,通过free -h 发现tdh1节点占用的内存相比于tdh2和t

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值