在使用爬虫技术的时候,网页做出的一种常见的反爬手段就是需要用户登录。此时我们可以使用表单登录的方式和cookies登录的方式,来实现反反爬。
本文爬取的对象是笔趣阁小说网站,利用python爬虫,利用携带登录信息的表单去请求网页的服务端,从而达到登录的效果。在此基础上,创建session将cookies保存下来,方便后续的登录。
表单登录
首先我们使用浏览器去访问网页的服务端,以观察访问的对象和需要携带的数据。
- 首先进入到网站的首页,可以看到右上角有一个登录的模块,按下F12检查,看网页的具体信息,如图1。

我们可以发现,其中登录信息是在一个
form表单内的,而form表单最终的行为也就是action指向了login.php,传输方式是post,这些都是之后将要用到的信息。 至于input框在什么位置,我们都不需要去关心,因为我们是使用表单登录,而不是使用selenium自动化去点击登录。
- 然后我们需要使用浏览器模拟登录,查看请求的具体内容,以及向服务端传输的表单数据。 (已经注册好了账号信息)

在使用浏览器进行登录的时候,我们需要关注几个点。点击登录后会有网络的刷新,因为浏览器要向网页服务端传输数据。其中刷新出来的
login.php即为之前检查元素时所查看到的form表单的action对象,所以我们点击login.php去查看其中的元素。
在这些元素里面我们看到请求的URL是http://www.beqege.cc/login,请求的方法是POST,然后还有向服务端传输的表单数据,包括uname,pass,action以及submit,这些是我们在写爬虫代码时所要模拟浏览器的一些操作。
- 根据前面的分析,我们进行爬虫代码的实现。

最低0.47元/天 解锁文章
1754

被折叠的 条评论
为什么被折叠?



