上周的系统迁移,进了一个坑,可谓真是坑,从问题的定位,到问题的解决,有很多值得借鉴、学习的,可以算是一次非常有价值的故障排查,
介绍一下背景,这是一套Tuxedo的服务,下图所示,服务A调用服务B,其中服务A的功能是执行一定的逻辑生成个文件,服务B的功能是将文件推送至客户FTP(Windows)服务器的指定路径中,
这次搬迁的目的,是因为客户的FTP服务器需要迁移升级,换了一台机器,但是IP不变,同时更新了FTP账号的密码,推送系统(服务A和B)未做任何变更,理论上,对推送端来说,是次很简单的配合操作。
凡事不能乱立flag,越简单的操作,可能蕴藏着你所不知的问题。当晚启动新机器,推送端系统改了配置,执行测试,发现文件推送出现了问题,从服务A的日志看,文件生成成功,异步调用服务B,未出现任何错误,但是服务B的日志,未找到这次文件推送的请求,换句话说,从现象上看,服务A生成的文件,在调用下层服务B的过程中消失了?
一开始,没找着头绪,以至于尝试了屡试不爽的重启大法,还是无效。
其实,从ULOG日志中,还是看得出一些端倪,他提示了服务B出现过server被kill,自动重启的现象,