背景
最近在写一个爬虫的小工具,卡在登录这里。
想爬的网站需要登录才能获取数据,登录又需要输入验证码。
好在验证码是简单的验证码,还可以自己识别试试。
需求分析
1、保存验证码图片
2、识别验证码
3、对识别的验证码进行人工校准
功能实现
1、保存验证码图片
虽然每个网站不一定一样,但是大体的思路是差不多的,我要爬取的网站是后台返回了一个验证码图片和cookie,所以我们需要把这两个东西都存下来。
这里用到了node中的request模块,具体没什么好说的,请求后获取response中的set-cookie,然后再把图片流存下来。request文档
let cookie = "";
let options ={
url: ""
headers: {
Accept:"*/*","Accept-Encoding": "utf-8","Accept-Language": "zh-CN,zh;q=0.8",
Connection:"keep-alive",'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',//伪装浏览器
},
method:'GET',
};
let stre