AIX故障定位

3.6.1 故障的定义
.弄清楚系统发生了什么问题
.系统现在能做什么?不能做什么?
.故障什么时候发生的?
.有没有做平时不同的操作?
.故障有没有规律?定时还是不定时?发生的频率有多高?
.是一台机器出现故障还是多台机器故障?故障现象是否相同?
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
3.6.2 故障信息的收集
收集故障信息对于判断、诊断故障原因,修复系统非常重要。
1)
系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
errpt 命令的使用见aix的日志管理小节
2)
控制面板上的LED 代码
.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.8 位和4位代码可查看系统服务手册 (Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
3)
SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键。
选择"Utilities"
选择"Error Log", 抄下8位故障代码
(在SMS 中还可以更改系统启动顺序表)
4)
邮件告警
#mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。
5)
故障诊断程序(Diagnostic)
当发现有硬件故障时应立即使用diag 对系统硬件进行检查和诊断。
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
3.6.3 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。
1)
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
2)
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
3)
SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
3.6.4
7133 磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM800服务热线。
3.6.5 软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1) 文件系统空间不够。
查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,当/tmp目录使用率是100%,informix数据库在启动过程中将会报错而导致无法启动,如果/ (根文件系统)满则会导致用户不能登录。对文件系统的使用率可用df –k进行 查看:
# df -k
Filesystem
1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4
507904 468328 8%
1362 1% /
/dev/hd2
1015808 308648 70%
22255 9% /usr
/dev/hd9var
507904 478372 6%
553 1% /var
/dev/hd3
1015808 982940 4%
75 1% /tmp
/dev/hd1 262144 206528
22% 114 1% /home
/proc - -
- - -
/proc
/dev/hd10opt
1015808 976132 4%
342 1% /opt
/dev/lvsoft
4014080 2430716 40%
163 1% /soft
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件
# du -sk * |sort -rn |head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:增加文件系统大小
# smitty chjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)
检查文件系统的完整性
# umount filesystem_name
# fsck -y filesystem_name
注意:文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)
查看卷组信息(lsvg -l vg_name):
有没有"stale"状态的逻辑卷。 若有,用syncvg 命令修复"stale"逻辑卷。
4)
检查内存交换区(paging space)使用率(lsps -s):
使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用
mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。
5)
小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。 通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值