python抓取超时_05-访问超时设置 | 01.数据抓取 | Python

最新推荐文章于 2022-03-13 16:36:44 发布

weixin_39886238

最新推荐文章于 2022-03-13 16:36:44 发布

阅读量338

点赞数

文章标签： python抓取超时

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39886238/article/details/111443944

版权

本文介绍了在Python中如何设置HTTP和Socket访问超时，以防止爬虫抓取页面时过长时间。通过pycurl库、httplib模块以及全局socket超时设置来控制超时时间，并展示了如何捕获和处理超时异常。

摘要由CSDN通过智能技术生成

05-访问超时设置

郑昀 201005 隶属于《01.数据抓取》小节

设置 HTTP 或 Socket 访问超时，来防止爬虫抓取某个页面时间过长。

pycurl 库的调用中，可以设置超时时间：

c.setopt(pycurl.CONNECTTIMEOUT, 60)

在 Python 2.6 版本下，httplib 库由于有如下构造函数：

class HTTPConnection:

def __init__(self, host, port=None, strict=None,

timeout=socket._GLOBAL_DEFAULT_TIMEOUT):

self.timeout = timeout

所以可以设置：>>> h3 = httplib.HTTPConnection('www.cwi.nl', 80, timeout=10)

如果通过 HTTPConnection 或 HTTPSConnection 的构造函数给定超时时间，那么阻塞操作(如试图建立连接)将会超时。如果没有给或者赋值 None ，那么它将使用全局的超时时间设置。

Python 2.5 下，因为 HTTPConnection 类的 __init__ 函数没有 timeout 参数，所以通过一个隐藏很深的函数：

httplib.socket.setdefaulttimeout(3)#输入参数单位貌似是分钟

来设置超时。

设置全局超时

最后，抓取时如果实在找不到什么函数能设置超时时间，那么可以设置全局的 socket 超时，虽然这样做不大合适：

最低0.47元/天解锁文章

weixin_39886238

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python抓取超时_05-访问超时设置 | 01.数据抓取 | Python

05-访问超时设置郑昀 201005 隶属于《01.数据抓取》小节设置 HTTP 或 Socket 访问超时，来防止爬虫抓取某个页面时间过长。pycurl 库的调用中，可以设置超时时间：c.setopt(pycurl.CONNECTTIMEOUT, 60)在 Python 2.6 版本下，httplib 库由于有如下构造函数：class HTTPConnection:def __init__(s...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。