node.js爬虫-校园网模拟登录

最新推荐文章于 2022-06-15 13:37:16 发布

人工智能AI算法

最新推荐文章于 2022-06-15 13:37:16 发布

阅读量1k

点赞数 1

分类专栏：图像加密隐写技术文章标签： cookie node.js html 网络安全 http

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_28178805/article/details/118735769

版权

图像加密隐写技术专栏收录该内容

2 篇文章 2 订阅

订阅专栏

爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。当我们将学号、密码及验证码提交后，浏览器首先通过与服务器进行连接，确认我们填的信息正确后，服务器会生成一个sessionId来表示登陆成功的状态，并返回给浏览器，浏览器接受到SessionId之后，作为cookies值保存在浏览器，之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此，获取cookies值是我们做爬虫很关键一步，这样才可以对登录后的页面数据进行爬虫，找到自己需要的数据。

一、准备工作：

1.安装superagent（一个的请求代理模块api，可处理get,post,put,delete,head请求。）

npm install superagent

2.安装cheerio（装载已爬取的html网页，类似jQuery，方便获取网页指定数据。）

npm install cheerio

3.安装nodecr（解析验证码。）

npm install nodecr

二、分析网页cookies

首先在浏览器中输入正确的用户和密码进行登录，登录成功后服务器会发送生成的cookie值给浏览器，用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录，还要保存好其发送给我们的cookie值，在之后的请求中将cookie值设置在请求头中进行发送，以获取登录后的其它页面信息。可在控制台中进行查看分析。

三、分析post需要提交的字段

方法一：在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。

00677OKGzy76NBowI2m62&690

方法二：可以查看源码，进行查找相应提交字段。

00677OKGzy76NB9BmYaf2&690

四、验证码处理

往往很多登录页面都需要验证码，我们该如何获取验证码，并对其进行解析呢？这就需要 nodecr （前身为tesseract），它可以解析到验证码中的数字，本文的解析流程，首先获取登录页面的验证码并保存到本地指定目录，然后通过nodecr第三方工具进行解析得到相应验证码，之后与用户名、密码一并提交，进行模拟登录。部分截图如下：

1.保存过程

00677OKGzy76NGwivJ4d6&690

2.解析登录过程

注：(红色框中输入自己爬取网页的相应字段)

00677OKGzy76NIOpMBgde&690

五、转码过程(可选)

有时候我们所要爬取的页面编码为GBK格式则不能正常显示，这时需要进行转码处理。

六、登录成功后

这时就该cheerio上场了，cheerio操作类似jquery的用法，先将得到的页面用cheerio进行转载，之后对相应的数据进行处理，取得自己想要的数据。

00677OKGzy76NIz8Q0ya2&690

模拟登录是最基础也最重要的部分，登录之后，我们便可以运用自己的知识对网页进行处理了，比如课表的爬虫，成绩的爬虫等等，你会觉的越来越有意思了。

完整代码见：https://github.com/luhongchun/blog/tree/master/node_login

人工智能AI算法

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
node.js爬虫-校园网模拟登录

爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。当我们将学号、密码及验证码提交后，浏览器首先通过与服务器进行连接，确认我们填的信息正确后，服务器会生成一个sessionId来表示登陆成功的状态，并返回给浏览器，浏览器接受到SessionId之后，作为cookies值保存在浏览器，之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此，获取cookies值是我们做爬虫很关键一步，这样才可以对登录后的页面数据进行爬虫，找到自己需要的数据。一、...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。