一、问题背景及描述
服务在正常运行几个月后,突然有一天监控服务,总是监控到部分服务处于stoped状态
二、排查过程
分析:应用服务之间需要进行数据推送,若长时间未收到则判定此服务故障
so,先查看数据推送是否正常,通过命令看,一直在推,没啥问题
然后查看监控日志,啥也看不出来,在此吐槽一下开发,既无法查看日志,又不帮俺排查,只告诉我,“一定是你环境出现了问题,我这里是正常的”,没办法,还是得靠自己。
首先还是得找日志吧,找来找去,一个有用的都没有,过程略。
找不到问题,那咋办呢,先重启一下服务吧,失败,再重启一下系统吧,还是失败,都不行,那我就重装呢,依旧是不行。
既然以前是可以的,啥也没动,那资源肯定是够的,苦思冥想一番后,实在是解决不动了,故只能暂时搁置
过了n个星期,一时兴起,继续排查之,由于问题每次都是在服务刚启动一小会的时候出现的,感觉这是一个规律点,抱着试一试的态度,我去查了一下系统日志,天呐,一个奇怪的现象映入眼帘,在出问题的一瞬间,系统打印了一条日志(之前可能也看到过,可能被我忽略了)
May 22 01:14:15 cn1514002651l ls