服务器的故障定义和故障信息收集
一:弄清楚系统发生了什么问题
- 系统现在能做什么?不能做什么?
- 故障什么时候发生的?
- 有没有做平时不同的操作?
- 故障有没有规律?定时还是不定时?发生的频率有多高?
- 是一台机器出现故障还是多台机器故障?故障现象是否相同?
- 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
二:收集故障信息对于判断、诊断故障原因,修复系统非常重要。
A:系统故障记录(errorlog)
- errdemon进程在系统启动时自动运行
- 记录包括硬件、软件及其他操作信息
- 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
- errpt 命令的使用(普通用户权限也可使用)
例如:#errpt |more 列出简短出错信息