昨天早上,线上主站点(nginx + fastcgi)大图详情页面打开缓慢,出现了很多502和504的错误,且服务器压力过大,几乎处于拒绝服务状态。Top命令查看服务器的资源使用情况,发现cpu飙升到100%且持续1-2分钟居高不下。而且,打开nginx的错误日志,发现有很多请求都是如下的状态:
由于大图详情页面并没有需要消耗cpu资源的计算,只有获取图片信息和相关推荐及评论的逻辑,因而起初怀疑是nginx配置导致的问题。后来发现,只有在某些情况下会出现这样的问题。无奈之下,只好对各个模块的请求时间记录并通过error_log将统计信息记录到文件。三个小时之后,打开统计文件,发现其中一个模块的加载时间极不稳定,有时甚至会操过120s,这显然是造成nginx 502错误的原因之一。Check相应的代码发现,对搜索接口的调用,是直接通过file_get_contents(API)的方式获取的。由于file_get_contents是阻塞的I/O方式,且默认没有设置超时,因而如果搜索接口在长时间没有返回数据的情况下,会一直占用系统的资源,从而导致了nginx的502 bad gateway错误。张宴的博客中,对这一现象做了详细的解释和描述(地址:http://blog.s135.com/file_get_contents/