node.js爬虫-校园网模拟登录

        爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。当我们将学号、密码及验证码提交后,浏览器首先通过与服务器进行连接,确认我们填的信息正确后,服务器会生成一个sessionId来表示登陆成功的状态,并返回给浏览器,浏览器接受到SessionId之后,作为cookies值保存在浏览器,之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此,获取cookies值是我们做爬虫很关键一步,这样才可以对登录后的页面数据进行爬虫,找到自己需要的数据。

一、准备工作:

        ​1.安装superagent(一个的请求代理模块api,可处理get,post,put,delete,head请求​。)

                npm install​ superagent

        2.安装cheerio(装载已爬取的html网页,类似jQuery,方便获取网页指定数据。)​

                npm install ​cheerio

        3.​安装nodecr(解析验证码​。)

                npm install  nodecr

二、​分析网页cookies

        首先在浏览器中输入正确的用户和密码进行登录,登录成功后服务器会发送生成的cookie值给浏览器,用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录,还要保存好其发送给我们的cookie值,在之后的请求中将cookie值设置在请求头中进行发送,以获取登录后的其它页面信息。可在控制台中进行查看分析。

​​​

三、分析post需要提交的字段

方法一:在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。

00677OKGzy76NBowI2m62&690

方法二:可以查看源码,进行查找相应提交字段。

00677OKGzy76NB9BmYaf2&690

四、验证码处理

     往往很多登录页面都需要验证码,我们该如何获取验证码,并对其进行解析呢?这就需要 nodecr (前身为tesseract),它可以解析到验证码中的数字,本文的解析流程,首先获取登录页面的验证码并保存到本地指定目录,然后通过nodecr第三方工具进行解析得到相应验证码,之后与用户名、密码一并提交,进行模拟登录。部分截图如下:
1.保存过程
00677OKGzy76NGwivJ4d6&690

2.解析登录过程
注:(红色框中输入自己爬取网页的相应字段)

00677OKGzy76NIOpMBgde&690

五、转码过程(可选)

        有时候我们所要爬取的页面编码为GBK格式则不能正常显示,这时需要进行转码处理。

00677OKGzy76NI7QjpR1f&690
六、登录成功后

        这时就该cheerio上场了,cheerio操作类似jquery的用法,先将得到的页面用cheerio进行转载,之后对相应的数据进行处理,取得自己想要的数据。
00677OKGzy76NIz8Q0ya2&690
 
        模拟 登录是最基础也最重要的部分,登录之后,我们便可以运用自己的知识对网页进行处理了,比如课表的爬虫,成绩的爬虫等等,你会觉的越来越有意思了。
完整代码见:https://github.com/luhongchun/blog/tree/master/node_login
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值