python如何抓取网页里面的文字_关于网页抓取:如何使用Python从网站抓取文字

我用python使用'requests'和'beautifulSoup'API编写了一个代码,以从google返回的前100个站点中抓取文本数据。

好吧,它在大多数站点上都很好用,但是在稍后响应或根本不响应的站点上却给出了错误

我收到此错误

引发MaxRetryError(_pool,url,error或ResponseError(cause))

requests.packages.urllib3.exceptions.MaxRetryError:HTTPConnectionPool(host ='www.lfpress.com',port = 80):URL超过最大重试次数:/ 2015/11/06 / fair-with-a-flare-samosas- 轻松实现(由NewConnectionError(':导致无法建立新连接:[Errno 11001] getaddrinfo失败',))

我是否应该更改在请求API中编写的代码? 还是我需要使用一些代理? 我如何离开该站点并转到下一个站点? 由于错误正在停止我的执行。

尝试:..除了:通过?

在调用周围添加"尝试除外"块以捕获该异常,如果您不关心该错误,则继续执行以下操作:

import requests

try:

requests.get('http://stackoverflow.com/')

except requests.packages.urllib3.exceptions.MaxRetryError as e:

print repr(e)

好吧,谢谢,如何避免所有在request.packages.urllib3.exceptions中出现的异常? 不仅是MaxRetryError?

@MuhammadZeeshan那就是被动错误处理。 单独使用except而不指定。

要扩展^,您可以将Exception以外的内容写为e:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值