反爬虫机制
登陆
1.1 表单登陆
1.2 cookie 登陆
1.3 验证码登陆
1.3.1 验证码识别
对于网站有验证码的情况,我们有三种办法:
- 使用代理,更新IP;
- 使用cookie登陆;
验证码图片识别:
1)利用开源的Tesseract-OCR系统进行验证码图片 的下载及识别,再将识别的字符传到爬虫系统进行模拟登陆。
2)将验证码图片上传到打码平台上进行识别。如果不成功,可以再次更新验证码识别,直到成功为止。
2 反爬虫机制的处理
2.1 防止服务器长时间不响应——设置时间间隔(timeout)
2.2 防止爬虫抓取过快——items类与时间设置
2.3 伪装成浏览器或者”反盗链“
3 断线重连
def multi_session