系统健康检查
一:查看硬件情况
1、检查设备故障灯,一般为橙色并有标志
2、有没有异常声响,如硬盘、风扇等。
二:查看系统故障信息
1、用errpt 命令查看系统出错信息。
2、用mail命令查看有否发给root用户的错误报告。
3、查看其他的记录文件,如/tmp/hacmp.out.
三:检查文件系统
1、查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。
#df –k (df –g) 查看AIX的基本文件系统)
Filesyste(m 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 24576 1452 95% 2599 22% /
/dev/hd2 614400 28068 45% 22967 15% /usr
/dev/hd9var 8192 4540 45% 649 32% /var
/dev/hd3 167936 157968 6% 89 1% /tmp
/dev/hd1 16384 5332 68% 1402 35% /home
除/文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件
#du –sk * |sort –rn |head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:增加文件系统的大小
#smitty chjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
四:检查文件系统的完整性
#umount filssystem_name
#fsck –y filseystem_name
注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。
五:查看卷组信息
1、lsvg –l vg_name
2、有没有“stale”状态的逻辑卷。
3、用syncvg命令修复。
六:检查内存交换区(paging space)使用率
1、lsps –s
2、使用率不要超过70%
3、增加交换区,或增加内存。
七:检查进程:lssrc –a/ps -ef
八:网络检查
1、netstat –i 查看网卡状态:lerrs/lpkts 和Oerrs/Opkts 是否>1%
2、Ping host_name/IP Address
查看是否通和是否有丢包
九:路由表
#netstat –rn
查看路由表是否正确,ping 各路由器是否通。