场景描述:
某天服务器上部署的tomcat服务夜间突然不能正常访问,此时用户访问量不大。查看线程还在运行,查看应用日志无任何异常,但是应用的控制台停止输出。只要重启后应用立刻能够正常访问。此后几天应用无任何异常把表现,但是经过一个周末后,周一早上发现应用不能又不能访问,并且服务器不能登录,重启服务器后,再重启应用,程序运行正常。此后应用每隔2到3天就会出现不能访问,并偶尔伴随操作系统不能登录,并且重启后正常。
原因:
运维人员查询原因后,确定是audit服务引起的,问题的原因是audit服务在繁忙的系统中进行审计事件操作,缓冲区存在瓶颈,导致系统接近崩溃。
audit审计介绍:
audit是linux系统中用于记录用户底层调用情况的服务,用来记录用户执行的open,exit等系统调用行为,并会将记录写到日志文件中。audit可以通过使用 auditctl 命令来添加或删除audit规则,可以设置针对某个用户进行记录,或针对某个进程的进行记录。
解决方案:
https://blog.csdn.net/sunny05296/article/details/109748808