背景:
收到告警:提示服务器有OOM事件,通过远程到服务器,发现pdf进程被OOM,虚拟内存和anno-rss内存超过40G,score为1696导致被OOM,但是由于业务量比较大,无法判定业务具体预览哪个文件导致被OOM,且OOM后无法获取OOM之前进程的详细信息,所以写了这个监控脚本,针对使用RSS内存大于8G的进程,进行监控
脚本代码
info=`ps -auxf | awk 'NR>1{print $0}' | sort -nr -k6 | head -1 | awk '{if($6>8388608){print $0}}'`
if [[ -n "$info" ]];then
echo -e "`date` $info" >>/tmp/get_mem_info.log
fi
定时任务
*/1 * * * * bash /root/get_mem.sh
总结:
每分钟执行一次,获取使用RSS最大的进程,当进程使用RSS超过8G,将进程信息记录到日志文件中,然后我们根据OOM告警,去读取日志文件,提取日志信息,在数据库里面查询