使用Nginx+uWSGI搭建web服务已经有半年时间了,最近经常会出现在某些时间段接口响应过慢的问题。一般要10几秒才能返回,有时候甚至是20~30s。这对前端APP来说是不可接受的,开发那边设置的timeout是10s。
最开始以为是他们原始接口自己的问题,后来查看之后发现其实结果返回很快的,但他们实际拿到请求时间已经过去了30秒,而请求端这30s都耗费在nginx和uwsgi的等待上。
没办法,看来还是得从服务端找原因。继续查看ELK搭建的日志搜集系统,发现了一些规律:
上图是各个接口的平均响应时间,大概每隔1h就会出现一次接口响应过慢的情况。准确的说是在每个小时的50分左右。怀疑在那个时间段会有大量请求阻塞。
跟各个接口负责人确认之后发现,相关新闻接口确实是在每个小时会对队列做一次更新,而且时间也对的上。这么看来应该是相关新闻接口在更新时,阻塞了所有的请求队列,导致其他请求没有及时到达后端。
我采用的解决方案是对相关新闻接口限制timeout时间为2s,直接在request请求里修改:
resp = requests.post("http://xx", json=data, timeout=2)
如果2s之内请求没响应则直接返回0.这样其他接口的请求也不会受到影响。
修改之后,基本恢复正常,所有请求平均响应时间都是500ms以下