解决大量http请求close_wait的问题
1.问题描述
通过代理执行爬取任务,过段时间就会警告打开文件数目太多(too many open files),首先排查是不是打开了太多hdfs文件连接没有关闭,查看代码确定所有hdfs连接在访问后都正常close了。
我们知道在Linux环境中,任何事物都以文件的形式存在,通过文件不仅可以访问常规数据,还可以访问网络连接和硬件。如TCP和UDP等,系统在后台都会为该应用程序分配一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。
因此,怀疑是不是通过代理打开了太多网络请求连接导致的,lsof命令查看爬虫任务打开的文件详情,如下图所示,看到有太多TCP连接处于close_wait状态。
2.解决方案
中间有很多尝试解决的步骤,这里不再赘述,只奉上最终的解决方案,在发起get或者post请求时,设置Connection属性为close,而非keep-alive,如:httpGet.setHeader("Connection","close");
,这是由我们的业务场景决定的,爬虫任务对于一个URL只需要请求一次,我们在请求完成后理解关闭连接,客户端就不需要一直维持这个连接了。进行如此设置后,再查看文件句柄,发现没有了close_wait状态的网络连接,大功告成。
3.总结:
基础要夯实,遇到问题静下心多分析,不能形成定式思维。