# 爬虫requests的高级操作

本文介绍了Python爬虫中requests库的高级操作,包括处理cookie、使用代理、验证码识别和模拟登录。针对大量请求时出现的HTTPConnectionPool错误,提出了设置Connection为close、更换IP和设置请求间隔等解决方案。
摘要由CSDN通过智能技术生成

requests高级操作

目录

1.cookie的处理

2.代理操作

3.验证码识别

4.模拟登陆

 

一、cookie

  • cookie是存储在客户端的一组键值对
  • cookie是由服务器端创建
  • cookie应用的简单实例:
    • 免密登陆(指定时长之内)

在爬虫中处理cookie的两种方式

  • 手动处理
    • 将cookie封装到headers字典中,将该字典作用到get/post方法中的headers参数中
  • 自动处理
    • Session对象
    • Session对象的创建:requests.Session()
    • 对象的作用:
      • 可以跟requests一样调用get/post进行请求的发送。在使用session进行请求发送的过程中,如果产生cookie,则cookie会被自动存储到session对象中
    • 在爬虫中使用session处理cookie时,session对象至少需要被用几次?
      • 两次,第一次是为了捕获和存储cookie到session对象中,第二次就是用携带cookie的session进行请求发送,这次请求发送就是携带cookie发起的请求
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值