1 构造登录请求
构造一个登录请求,将用户登录的信息作为参数一起传递给网站服务器。但是如果登录时有验证码,这种方法就不行了。
1.1 实现
data 里面的数据是登录时提交的表单数据,可以在“开发者工具”中查看。
parse 里面处理登录是否成功的逻辑。如果登录成功,就由 parse_doulist 处理接下来的爬取数据的逻辑。
parse_doulist 处理爬取数据的逻辑,和其他爬虫逻辑一样
2 验证码识别
2.1 使用OCR识别验证码(简单的)
2.1.1 OCR环境构建
Tesseract OCR的下载和安装:下载地址为http://digi.bib.uni-mannheim.de/tesseract。下载后按照提示安装即可。
安装Python支持的OCR库:
Python中想要调用Tesseract的OCR引擎,需要安装两个库,一是pytesseract,它是Tesseract的识别库;二是Pillow,它是著名的Python图形处理库PIL(Python Image Library)的分支版本,包含