爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。当我们将学号、密码及验证码提交后,浏览器首先通过与服务器进行连接,确认我们填的信息正确后,服务器会生成一个sessionId来表示登陆成功的状态,并返回给浏览器,浏览器接受到SessionId之后,作为cookies值保存在浏览器,之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此,获取cookies值是我们做爬虫很关键一步,这样才可以对登录后的页面数据进行爬虫,找到自己需要的数据。
一、准备工作:
1.安装superagent(一个的请求代理模块api,可处理get,post,put,delete,head请求。)
npm install superagent
2.安装cheerio(装载已爬取的html网页,类似jQuery,方便获取网页指定数据。)
npm install cheerio
3.安装nodecr(解析验证码。)
npm install nodecr
二、分析网页cookies
首先在浏览器中输入正确的用户和密码进行登录,登录成功后服务器会发送生成的cookie值给浏览器,用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录,还要保存好其发送给我们的cookie值,在之后的请求中将cookie值设置在请求头中进行发送,以获取登录后的其它页面信息。可在控制台中进行查看分析。
三、分析post需要提交的字段
方法二:可以查看源码,进行查找相应提交字段。
四、验证码处理
2.解析登录过程