爬虫表单登录以及cookies登录

在使用爬虫技术的时候,网页做出的一种常见的反爬手段就是需要用户登录。此时我们可以使用表单登录的方式和cookies登录的方式,来实现反反爬。

本文爬取的对象是笔趣阁小说网站,利用python爬虫,利用携带登录信息的表单去请求网页的服务端,从而达到登录的效果。在此基础上,创建session将cookies保存下来,方便后续的登录。

表单登录

首先我们使用浏览器去访问网页的服务端,以观察访问的对象和需要携带的数据。

  1. 首先进入到网站的首页,可以看到右上角有一个登录的模块,按下F12检查,看网页的具体信息,如图1。
    登录模块的信息
图1:登录模块的信息

我们可以发现,其中登录信息是在一个form表单内的,而form表单最终的行为也就是action指向了login.php,传输方式是post,这些都是之后将要用到的信息。 至于input框在什么位置,我们都不需要去关心,因为我们是使用表单登录,而不是使用selenium自动化去点击登录。

  1. 然后我们需要使用浏览器模拟登录,查看请求的具体内容,以及向服务端传输的表单数据。 (已经注册好了账号信息)
    使用浏览器进行登录
图2:使用浏览器登录

在使用浏览器进行登录的时候,我们需要关注几个点。点击登录后会有网络的刷新,因为浏览器要向网页服务端传输数据。其中刷新出来的login.php即为之前检查元素时所查看到的form表单的action对象,所以我们点击login.php去查看其中的元素。
在这些元素里面我们看到请求的URL是http://www.beqege.cc/login,请求的方法是POST,然后还有向服务端传输的表单数据,包括unamepassaction以及submit,这些是我们在写爬虫代码时所要模拟浏览器的一些操作。

  1. 根据前面的分析,我们进行爬虫代码的实现。

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值