python抓取超时_05-访问超时设置 | 01.数据抓取 | Python

本文介绍了在Python中如何设置HTTP和Socket访问超时,以防止爬虫抓取页面时过长时间。通过pycurl库、httplib模块以及全局socket超时设置来控制超时时间,并展示了如何捕获和处理超时异常。
摘要由CSDN通过智能技术生成

05-访问超时设置

郑昀 201005 隶属于《01.数据抓取》小节

设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。

pycurl 库的调用中,可以设置超时时间:

c.setopt(pycurl.CONNECTTIMEOUT, 60)

在 Python 2.6 版本下,httplib 库由于有如下构造函数:

class HTTPConnection:

def __init__(self, host, port=None, strict=None,

timeout=socket._GLOBAL_DEFAULT_TIMEOUT):

self.timeout = timeout

所以可以设置:>>> h3 = httplib.HTTPConnection('www.cwi.nl', 80, timeout=10)

如果通过 HTTPConnection 或 HTTPSConnection 的构造函数给定超时时间,那么阻塞操作(如试图建立连接)将会超时。如果没有给或者赋值 None ,那么它将使用全局的超时时间设置。

Python 2.5 下,因为 HTTPConnection 类的 __init__ 函数没有 timeout 参数,所以通过一个隐藏很深的函数:

httplib.socket.setdefaulttimeout(3)#输入参数单位貌似是分钟

来设置超时。

设置全局超时

最后,抓取时如果实在找不到什么函数能设置超时时间,那么可以设置全局的 socket 超时,虽然这样做不大合适:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值