昨天机房空调坏了,气温过高,导致很多机器宕了!重启之后开始开始告警!系统为AIX6.1,与另一台主机做了HACMP。

错误信息为:

3D32B80D  0630172411 P S topsvcs  NIM thread blocked

173C787F  0630172211 I S topsvcs  Possible malfunction on local adapter

刚开始以为是网卡故障经检查排除!后对系统进行性能测试!

System configuration: lcpu=8 drives=11 paths=66 vdisks=0

tty:      tin         tout    avg-cpu: % user % sys % idle % iowait
          0.0         11.9               13.0  33.8   45.2      8.0

Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk1          90.4     47563.7     265.3         88    238860
hdisk0          92.6     47617.8     265.5         84    239136
hdisk2           0.0       0.0       0.0          0         0
hdisk5           0.0       0.0       0.0          0         0
hdisk3           0.0       0.0       0.0          0         0
hdisk4           0.0       0.0       0.0          0         0
hdisk6          72.7     73962.3     290.6     371568         0
hdisk7           0.0       0.0       0.0          0         0
hdisk9           0.0       7.2       1.8          0        36
hdisk8          48.8     13020.6     208.6      64880       532
cd0              0.0       0.0       0.0          0         0

 Total Paging Space   Percent Used
      4096MB               1%

 

system Configuration: lcpu=8 mem=23552MB

kthr    memory              page              faults        cpu    
----- ----------- ------------------------ ------------ -----------
r  b   avm   fre  re  pi  po  fr   sr  cy  in   sy  cs us sy id wa
3  1 2235313 2103640   0   0   0 17475 69850   0 1949 50107 12770  5 34 54  8
3  1 2235347 2103699   0   0   0 17504 17510   0 2199 58415 12838 11 31 46 12
2  1 2235433 2103596   0   0   0 17126 44291   0 1998 51542 12286 13 33 42 12
3  1 2235434 2103426   0   0   0 17999 44201   0 2089 52374 12540 13 31 43 13
2  1 2235421 2103530   0   0   0 18058 18766   0 2109 55067 12629  8 31 51  9

经测试发现内存、交换空间、cpu资源还有很多空闲,但hdisk0、hdisk1这两块磁盘过热,长时间观察使用率一直居高不下!确定为磁盘过热导致其他进程挂起,无法响应其他节点请求,产生网络超时错误

iostat 3 5   --确定哪块磁盘过热

lspv    --确定磁盘属于哪个vg

lvmstat -v vg_name -e    --开启lvm分析报告

lvmstat -v vg_name    --查看哪个lv过热

lslv lv_name    --查看lv的mount point字段值

ps -ef|grep mount_point   --找到一直占用资源的进程名

发现进程后通知应用,将应用迁移到磁盘阵列上!