1.跟进生产服务器内存无故增长的问题(目前已通知操作系统提供方进行排查),记录排查过程。
11月27日上午10点50分中心客户反馈,政通雄安app中的租赁入口进入之后显示空白,开始着手排查,一下是排查步骤:
第一步:登录超算中心app部署服务器10.xx.94(主)、10.xx.95(备机),通过堡垒机服务登录到94服务器,机器因为内存占用过高死机。
第二步:为了解决生产问题,将备机10.xx.95THS 服务进行了重启,先保证生产环境不受影响,奇怪的是为什么没有进行主备自动切换。
第三步:为了生产环境的完整,重启reboot 主服务器(10.xx.94),重启之后的机器内存占用只有5%,分奇怪,接下来就要分析是什么占用了大量的内存
(THS高可用的切换策略,HA监测到主机的httpserver不存在的时候切换)
-
使用命令:sar -f /var/log/sa/sa27,查看27号之前每天的内存使用情况,发现内存内存一直在逐步升高。sar命令是系统活动的报告记录30天的,10分钟记 录一次,
-
因为重启之后,主机的内存已经降至5%,所以我们开始转换思路,对备机进行分析
-
我们查看备机的会后内存也很高,71%,(本机内存16G)
commond line:
命令:top,查看系统各个进程是内存、cup占用情况
输入:m,查看系统内存使用的百分比
命令:free -m,查看内存的使用情况
命令:ps aux --sort=-%mem ,列出所有进程,并按照内存使用率进行排序
命令:ps -e -o pid,rss | awk '{sum+=$2} END {print sum}' ,将所有进程的实际使用内存加起来,
命令:sudo systemctl list-units --type=service --state=running,查看系统中正在运行的服务
命令:ss -a 查询所有的socket 链接
命令:sync && echo 1 > /proc/sys/vm/drop_caches
sync && echo 2 > /proc/sys/vm/drop_caches
sync && echo 3 > /proc/sys/vm/drop_caches,清理缓存
以上查询活成都尝试过之后依然没有分析出到底是谁消耗了更多的系统内存,于是我们想在测试环境上进行验证
4.测试机器我们写在了安装的安全组件,一下操作之后,77服务器上面除了操作系统什么也没有,内存依然居高不下,所以我们怀疑可能是操作系统的问题,
-----------------------------------77(超算测试)服务器卸载安全组件前----------- Tasks: 185 total, 1 running, 184 sleeping, 0 stopped, 0 zombie %Cpu(s): 0.3 us, 0.6 sy, 0.0 ni, 99.0 id, 0.0 wa, 0.0 hi, 0.1 si, 0.0 st MiB Mem : 48.9/15519.0 [||||||||||||||||||||||||||||||||||||||||||||||||| ] MiB Swap: 0.0/0.0 [ ---------------------------------77服务器卸载安全组件后------------- top - 16:20:29 up 52 days, 5:18, 1 user, load average: 0.02, 0.04, 0.01 Tasks: 177 total, 1 running, 176 sleeping, 0 stopped, 0 zombie %Cpu(s): 0.2 us, 0.2 sy, 0.0 ni, 99.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st MiB Mem : 45.8/15519.0 [|||||||||||||||||||||||||||||||||||||||||||||| ] MiB Swap: 0.0/0.0 [ ] --------------------------------77服务器停止了THS控制台java进程之后-- top - 16:25:50 up 52 days, 5:24, 1 user, load average: 0.00, 0.03, 0.00 Tasks: 176 total, 2 running, 174 sleeping, 0 stopped, 0 zombie %Cpu(s): 0.0 us, 0.2 sy, 0.0 ni, 99.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st MiB Mem : 44.4/15519.0 [|||||||||||||||||||||||||||||||||||||||||||| ] MiB Swap: 0.0/0.0 [ ------------------------------77服务器停止了HA之后的结果, top - 09:13:30 up 52 days, 22:11, 1 user, load average: 0.00, 0.01, 0.00 Tasks: 177 total, 1 running, 176 sleeping, 0 stopped, 0 zombie %Cpu(s): 0.0 us, 0.1 sy, 0.0 ni, 99.9 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st MiB Mem : 44.4/15519.0 [|||||||||||||||||||||||||||||||||||||||||||| ] MiB Swap: 0.0/0.0 [
等待操作系统方排查,后续补全