hmc如何进入aix系统_AIX操作系统夯住,通过HMC或者SSH无法登录

原标题:AIX操作系统夯住,通过HMC或者SSH无法登录

故障描述

AIX操作系统夯住,通过HMC或者SSH无法登录。

系统环境

AIX 5300-11-07

故障分析

由于系统当时已经夯住,已经无法打开终端进行操作,因此在故障现场当时收集AIX操作系统的forcedump数据。该系统的内存为116GB,dump收集成功,系统重启后恢复正常。

c351bbaedde8054bab63b42ecad16eb8.png

通过dump的数据可以看到共有36个逻辑CPU,其中每个CPU运行的进程如下:

cebfe41a1c66156d41a8fc00d1a54840.png

80cfeafb7824da843f33d8e3730ca953.png

通过dla命令查看是否有死锁,经分析发现有220条死锁产生,具体如下:

9d4a13b126a154ac146ff4024d19bc43.png

下面分析死锁的原因,经分析发现死锁都是在等TID为A7233的线程。

5e0ee77bafa14183ddd6519f2024c54d.png

经查TID为A7233的线程为IBM.CSMAgent。也就是说220个线程在等IBM.CSMAgent。

b373da465848f88a6d23ecfde4351d5b.png

下面分析为什么IBM.CSMAgent会hang,通过分析可知IBM.CSMAgent运行在CPU0上,它是在等同样运行在CPU0上的xmtopas线程,而xmtopas优先级是18,IBM.CSMAgent的优先级是3A,因此IBM.CSMAgent会等高优先级的xmtopas完成后再进行响应。

581e1be90f3d2546f30b58ceee7a384f.png

而经分析xmtopas此时运行不正常,抛出signal 11异常退出的代码,而由时由于该进程内存越界,因此xmtopas进程进入了一个死循环的状态,这样就阻塞了后面的IBM.CSMAgent,同时pending住了后面的进程,最终造成系统HANG。

故障建议

针对此问题,由于xmtopas进程目前在该系统中没有使用,它主要是执行topas -C命令时在一个LPAR上收集其它LPAR cpu信息时才会使用,因此通过禁用xmtopas服务来规避该问题。

6a479548a655430e84e7f642819fac06.png

作者专栏:http://www.aixchina.net/Column/detail/id/7

本系列文章:

也可以直接搜索公众号名称“AIX专家俱乐部”或微信号“AIXChina”关注返回搜狐,查看更多

责任编辑:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值