Python scrapy 爬虫入门(六)模拟登录

1 构造登录请求

构造一个登录请求,将用户登录的信息作为参数一起传递给网站服务器。但是如果登录时有验证码,这种方法就不行了。

1.1 实现

在这里插入图片描述
data 里面的数据是登录时提交的表单数据,可以在“开发者工具”中查看。
parse 里面处理登录是否成功的逻辑。如果登录成功,就由 parse_doulist 处理接下来的爬取数据的逻辑。
parse_doulist 处理爬取数据的逻辑,和其他爬虫逻辑一样

2 验证码识别

2.1 使用OCR识别验证码(简单的)

2.1.1 OCR环境构建

Tesseract OCR的下载和安装:下载地址为http://digi.bib.uni-mannheim.de/tesseract。下载后按照提示安装即可。
安装Python支持的OCR库:
Python中想要调用Tesseract的OCR引擎,需要安装两个库,一是pytesseract,它是Tesseract的识别库;二是Pillow,它是著名的Python图形处理库PIL(Python Image Library)的分支版本,包含

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值