AIX系统的日常监控维护

2006-08-03 18:26:00
<?XML:NAMESPACE PREFIX = O />

UNIX 操作系统在各电信运营商中应用非常广泛,各种业务管理系统的后台服务器几乎都采用 UNIX 操作系统。 AIX 作为 UNIX 操作系统中的一种,因其稳定性高、兼容性好的特点受到众多系统管理员的欢迎。
下面提供几个方法,供大家共享,旨在提高维护的目的性、针对性及维护效率,降低故障发生率,从日常维护管理上做到“有的放矢”,“万无一失”。
1、  使用 df –k 命令检查文件系统是否满
用 root 用户登陆 AIX 后,在命令提示符“ # ”后输入: df –k . ,表示以 k 为单位检查文件系统的使用率。如果占用率( %Iused )超过 90% ,则需要进行空间调整。
   
2、  使用 errpt |more 命令查看系统出错日志
   在命令提示符“ # ”后输入: errpt |more , 表示以分页的形式显示系统出错日志(包括硬件与软件的出错信息)。根据显示的信息判断系统硬件及软件的运行情况。输入: errclear 0 命令,清除现有的系统日志。

 

3 、使用 last 命令检查系统登陆情况
   在命令提示符“ # ”后输入: last ,显示各个 login 用户(如: root 等)登陆的信息。如果发现有异常的登陆用户或者登陆 IP ,则进行相应安全性的检查及处理。

 

4、  使用 find / -name core –print 命令检查是否有巨大的 core 文件生成
   在命令提示符“ # ”后输入: find / -name core –print ,表示从系统根目录开始查找所有名为 core 的文件(巨大的 core 文件容易造成系统崩溃)。如果存在,一般直接删除即可。

 

5、  使用 vmstat 命令检查 CPU 及内存运行情况
   在命令提示符“ # ”后输入: vmstat 5 ,表示每隔 5 秒钟显示系统 CPU 及内存运行情况。查看 kthr ( kernel 运行队列中处于等待状态的进程数 )字段的 r ( 运行队列中的进程数 )项的显示值,如果该数值是系统实际 CPU 数的 4 倍或 4 倍以上,则表示 CPU 占用率过高,需要考虑提高系统 CPU 工作频率;查看 memory ( 虚拟和真实内存的使用信息 )字段的 fre ( 空闲页面的数量 )项,如果数值低于 120 ,则说明系统内存短缺。有时候数值虽然高于 120 ,也可以根据实际情况调整内存;查看 page (页 面活动的信息 )字段的 pi ( 从页面输入的页 )、 po ( 输出到页面的页 )、 fr ( 空闲的页面数)及 sr (通过页面置换算法搜索到的页面数)项的值,这 4 个值一般都为 0 ,有时候也有可能为 1 ;最后查看 cpu cpu 的使用率)字段的 us (用户进程的时间)及 sy (系统进程的时间)项的值,两项值的和应该不超过 90% ,否则说明 CPU 能力短缺。

 

6、  使用 lsps –a 命令检查交换内存空间使用情况

   在命令提示符“ # ”后输入: lsps -a ,查询交换内存空间使用情况。如果 %used 字段低于 70% ,则系统运行正常。

 

7、  使用 mail –u root 命令检查系统发送给 root 用户的 mail 错误报告
   在命令提示符“ # ”后输入: mail –u root ,显示系统发送给 root 用户的 mail 错误报告。查看是否有硬件或软件方面的错误信息报告,并做相应处理。

 

8、  使用 diag 命令检查系统硬件运行情况
每个月用 diag 命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
   
综上所述,作为 AIX 系统管理员,在日常维护工作中要做好预测工作,对系统进行及时监控,将可能发生的系统故障扼杀在萌芽阶段。