一、 背景
1) 开发脚本实现OS配置参数巡检
2) 推动监控系统发布OS巡检插件
3) 利用监控数据形成报表
二、 巡检项整改方案解析
1、 检查僵尸进程
此项检查项是检查主机系统是否存在D状态的进程,D是一种不可中断的sleep,如果发现D状态并且不能自动消除的进程,这个时候这些进程实际上是没有在处理业务逻辑的,产生D状态的原因一般是因为在等待IO,例如磁盘IO、网络IO。
检查命令:ps axf|awk ‘{print $3}’| grep –v STAT| grep ^D | wc –l
整改方法:无法用kill命令杀掉的,即使是加9或15信号,只能重启主机。
2、 检查时间同步服务
(包含检查NTP或chronyd同步状态和检查NTP或chronyd服务是否打开自启动)
1) 检查NTP或chronyd同步状态
时间同步状态异常会导致系统时间有差异,命令检查符号存在,代表正常同步时间,反之,目前x86主机资源使用NTP同步时间服务,ARM主机资源使用chronyd同步时间服务。
检查命令:ARM chronyc sources | grep –w “^^*”
x86 ntpq -4np|grep ^
整改方法:使用巡检自助修复工具,重启时间同步服务,使用工具还存在问题,请联系主机组查看ntp配置文件
2) 检查NTP或者chronyd服务是否打开自启动
如果服务没有设置自启动,主机重启后不能开启服务,导致主机时间异
Linux系统巡检项及详细巡检方法与解决方案
于 2022-02-14 22:46:50 首次发布