巡检到客户那里先是通过web管理检查下系统是否正常。
如果系统有异常,别急。留出几分钟理清楚思路再去排错:
(我以我们的产品为例)
一、尽可能搞清楚问题的前因后果,不要一下子就扎到shell窗口去。
必须搞清楚的问题:
1.问题的表现是什么?无响应?报错?
2.问题是什么时候发现的?
3.是否有日志可以查看?(比如trs.log、bdsmgr.log、http.log、mysql.log…)
二、有谁在和在之前发生了什么?
who
last
用这两个命令看看都有谁在线,有哪些用户访问过(如果有其他人可能会对他人工作造成影响)。
history
看下最近的操作记录。。。(不经意间发现有你想不到东东)
三、现在在运行的进程是啥?
pstree -a
ps -ef| grep bds
pstree -a 的结果比较简单明了,可以看到正在运行的进程及相关用户。ps -ef | grep ** 基于某个程序查看、在不在线。
四、监听的网络服务和iptables的情况*重点内容*
netstat -natup | grep "192.168.9.10" | awk '{print $5}'
如果是现场的系统是与互联网隔离的,则查出来的只有你使用pc的电脑地址。192.168.9.10就是巡检服务器的地址
#iptables -L -n 看下iptables是否正常
(1)硬盘使用
df -h
du -h --max-depth=1
这两命令简单实用性强,下面的“1” 代表你想看的几级目录
(2)内存
free -h
top
uptime
查看硬盘各分区的使用情况,内存占用情况,系统运行的时间等
六、挂载点 和 文件系统
mount cat/etc/fstab lvs df -h iostat -kx 2
检查挂载情况,和我设置的的挂载的几种参数是否正确,io的使用情况(io性能问题也会导致很多程序运行问题,比如卡曼、任务堆积等等)
七、系统日志
dmesg less /var/log/message /var/log/mysqld.log
系统出错了,找到关键日志很必要。
以上看完了,已经清楚系统当前的一些情况,大致也知道是哪里的问题了,然后在对某个问题针对性的查问题。