python爬虫超时重试_python爬虫怎么处理异常和超时？

最新推荐文章于 2024-07-16 20:34:24 发布

Ms.Piu

最新推荐文章于 2024-07-16 20:34:24 发布

阅读量912

收藏

点赞数

文章标签： python爬虫超时重试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42363388/article/details/112029934

版权

本文介绍了Python爬虫在面对反爬虫策略、网络超时等问题时的处理方法，包括设置超时、异常处理和程序自重启。通过显式等待和隐式等待解决页面加载延迟问题，使用try&except语句处理异常并记录错误URL，以及配置自重启机制以保证爬虫的持续运行。

摘要由CSDN通过智能技术生成

该楼层疑似违规已被系统折叠隐藏此楼查看此楼

写代码总是会出异常的，尤其是爬虫这类程序，无法确保每次请求都能稳定地返回统一的结果，比如反爬虫策略提升、代理IP超时、程序异常等等，处理好这些问题，才能保证爬虫程序持续地运行下去。

一、反爬虫策略。这里不多说，之前有讨论过，可以参考之前的文章《爬虫如何有效突破网站的反爬机制？》。

二、超时设置。网络总是不会一如既往的稳定如一，可能代理IP某个时间不稳定，也可能目标服务器某个时间不稳定，还有自身机器的网络也可能不稳定，如果不设置好超时，程序也不好跑下去。

selenium+chrome的超时设置：

显式等待：、等待某个条件发生，然后再继续进行代码。

driver = webdriver.Firefox()

driver.get("http://somedomain/url_that_delays_loading")

try:

element = WebDriverWait(driver, 10).until( #这里修改时间

EC.presence_of_element_located((By.ID, "myDynamicElement"))

)

finally:

driver.quit()

隐式等待：是告诉WebDriver在尝试查找一个或多个元素(如果它们不是立即可用的)时轮询DOM一定时间。默认设置为0，一旦设置，将为WebDriver对象实例的生命期设置隐式等待。

driver = webdriver.Firefox()

driver.implicitly_wait(10) # seconds

driver.get("http://somedomain/url_that_delays_loading")

myDynamicElement = driver.find_element_by_id("myDynamicElement")

三、异常处理。是程序就会有异常，不管是什么程序，python使用try&except语句来处理异常。try&except语句不仅仅是要让其捕获异常更重要的是让其忽略异常，因为爬虫中的绝大多数异常可能重新请求就不存在，因此，发现异常的时候将其任务队列进行修复其实是个最省力的好办法。

try:

passhttp://www.***.com/***/#

#可能出错的语句

except Exception,e:

pass

#保留错误的url，留待下次重跑

print e

finally:

#无论是否处理了异常都继续运行

print time.ctime()

四、自重启设置。如果一个程序在某种情况下报错多次，或者运行时间够久远，那么其性能可能会下降，就像一台电脑一样，用的越久就越慢，重启不失为一个好办法。当然这是治标不治本，但无疑是最省力的方法之一，当满足设置的重启条件后，程序自重启，也是让程序持久运行的一个好方法。

Ms.Piu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫超时重试_python爬虫怎么处理异常和超时？

该楼层疑似违规已被系统折叠隐藏此楼查看此楼写代码总是会出异常的，尤其是爬虫这类程序，无法确保每次请求都能稳定地返回统一的结果，比如反爬虫策略提升、代理IP超时、程序异常等等，处理好这些问题，才能保证爬虫程序持续地运行下去。一、反爬虫策略。这里不多说，之前有讨论过，可以参考之前的文章《爬虫如何有效突破网站的反爬机制？》。二、超时设置。网络总是不会一如既往的稳定如一，可能代理IP某个时间不稳定，也可...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值