问题背景:一个平稳运行了快3年的跑批程序,最近频繁出现请求timeout的问题,导致其他的一些请求也陆续出现timeout。本来以为是更新程序出现了问题导致跑批一直没有结果,查看运行日志,发现报错如下:
问题分析:
1、经查询日志,报错的位置在做更新的代码前面,可以推断出与本次更新无关。但甲方坚持与本次更新有关,所以我们将之前备份的包进行了还原,结果手动运行发现还是有这个问题。
2、延长请求request请求的超时时间,服务端发现运行一段时间后就会出现timeout问题,但是初步说明延长超时时间可以初步解决这个问题,但是在运行几年可能还是不行。
3、分析代码,发现此处在循环中会发出大批量请求给服务端,然后服务端会对每个请求做出耗时处理,时间较长。到此处已经基本上定位出来了问题。服务端大量挂起客户端请求,直到超时。
解决方案:
1、优化请求程序,给需要发送的数据做日期限制,防止全量数据的发出。
2、上面的方案已经完全解决问题了,但是可以在探索下完善的方案:比如在服务端添加redis队列缓存请求,然后依次对请求进行处理。