Python requests 多线程抓取 出现HTTPConnectionPool Max retires exceeded异常

阿里云 服务器 特价秒杀活动,优惠券,有需要的自领:https://www.aliyun.com/acts/product-section-2019/new-users?userCode=fr7cmxm9

  • 场景:
    在做爬虫项目或者是在发送网络请求的时候,一般都会用到request模块,但是经常会遇到:
HTTPConnectionPool Max retires exceeded read time out的问题

查阅资料后发现,出现异常的原因是因为,requests在发送http请求之后,并没有关闭http连接导致,连接过多然后阻塞。
requests使用了urllib3库,默认的http connection 是keep-alive的,requests中可以设置False关闭。

实际在python2中的代码使用

s = requests.session()
s.keep_alive = False

Tips:
网上有的说是:

s = requests.session()
s.config['keep_alive'] = False

单我实际应用中报异常了。最后用第一个成功解决。

总结:
对于request库的诸多应用,应该多熟悉操作。加深印象。

推荐微信小程序阅读:

【十一】 10分钟精通微信小程序 | 云函数管理端
【十】 10分钟精通小程序 | 云函数异步返回结果
【九】10分钟精通微信小程序 | 云函数
【八】 10分钟精通微信小程序云存储 | 云存储
【七】10分钟精通微信小程序 | 增删改查
【六】10分钟精通微信小程序 | 增删改查
【五】10分钟精通微信小程序 | 云数据库增删改查
【四】10分钟精通微信小程序 | 云控制台
【三】10分钟精通微信小程序 | 光速入门
【二】10分钟精通微信小程序云开发 | 多图上传并存储路径到云数据库
【一】10分钟精通微信小程序 | 获取用户openid

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
Python提供了多线程模块`threading`,可以方便地实现多线程抓取数据并存入数据库的方法。 首先,我们需要导入必要的库和模块。常用的库包括`requests`用于发送HTTP请求,`BeautifulSoup`用于解析HTML内容,`threading`用于启动和管理多线程,以及数据库库比如`mysql-connector-python`用于与数据库交互等。 接下来,我们可以定义一个函数来实现数据的抓取和存入数据库的逻辑。这个函数会接受一些参数,比如抓取数据的URL,要存入数据库的表名等。 在函数内部,我们会使用`requests`库发送HTTP请求并获取响应内容。然后,使用`BeautifulSoup`解析响应内容,提取需要的数据。 将提取得到的数据存入数据库之前,需要先与数据库建立连接。连接数据库可以使用`mysql-connector-python`或者其他合适的数据库库。之后,可以使用SQL语句将数据插入到指定的表中。 在主函数中,我们可以创建多个线程来并发执行数据抓取和存储的任务。每个线程负责一个特定的URL或者一组URL的抓取。可以通过创建线程对象并调用其`start()`方法来启动线程。 最后,我们需要在主函数中等待所有线程的完成,可以通过调用`join()`方法实现。 通过上述方法,我们就可以实现基于多线程的数据抓取并存入数据库的功能。多线程的特点可以提高抓取和存储的效率,加快整个过程的执行速度。当然,我们还需要考虑多线程的并发性和同步问题,比如避免多个线程同时操作数据库的同一部分等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不知火猪

如果觉得有帮助,打赏鼓励,3Q

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值