20170208大量Http请求close_wait的问题

解决大量http请求close_wait的问题

1.问题描述

通过代理执行爬取任务,过段时间就会警告打开文件数目太多,首先排查是不是打开了太多hdfs文件连接没有关闭,查看代码确定所有hdfs连接在访问后都正常close了。
我们知道在Linux环境中,任何事物都以文件的形式存在,通过文件不仅可以访问常规数据,还可以访问网络连接和硬件。如TCP和UDP等,系统在后台都会为该应用程序分配一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。
因此,怀疑是不是通过代理打开了太多网络请求连接导致的,lsof命令查看爬虫任务打开的文件详情,如下图所示,看到有太多TCP连接处于close_wait状态。
这里写图片描述

解决方案

中间有很多尝试解决的步骤,这里不再赘述,只奉上最终的解决方案,在发起get或者post请求时,设置Connection属性为close,而非keep-alive,如:httpGet.setHeader("Connection","close");,这是由我们的业务场景决定的,爬虫任务对于一个URL只需要请求一次,我们在请求完成后理解关闭连接,客户端就不需要一直维持这个连接了。进行如此设置后,再查看文件句柄,发现没有了close_wait状态的网络连接,大功告成。

总结:

基础要夯实,遇到问题静下心多分析,不能形成定式思维。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值