判断是什么类型的用户再登录_登录验证的方法

fde602adcfe363d1ef6003140446ae18.png

有很多网站,是需要登录账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。

针对这类网站,八爪鱼提供多种解决方法。本教程将详细讲解。

方法一、浏览器模式+记住Cookie

针对需要登录的网站,我们可以先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取Cookie记住登录状态。这样,八爪鱼

能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。

场景一:输入账号、密码登录

以豆瓣网为例,

登录网址为:https://www.douban.com

实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

步骤1、使用浏览器模式,输入账号密码,完成登录

在客户端首页,输入登录网址,打开网页后,点击

c2bebefa91334ab14860587c7f14942c.png

按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击

5ecdfbf56d908f07bf052e422a49645c.png

按钮,关闭浏览器模式。

c41412edcd3fc812077837b547064b56.png
当前状态为浏览器模式

在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。

b3efc26df34b2aecd9dca00fe97cbb9e.png

步骤2、记住Cookie

现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。

在【打开网页】后增加一个【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。

然后勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后

9f04770d021594ee1315545b386afe50.png

会变成

c91b865e836ab7b1be6dd3116af3b823.png

,点击

0da10733f279531781416f3dd45bf283.png

,可查看具体的Cookie内容,最后点击【应用】保存。

八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。

42df59380d2414dc30abce4e5254d13e.png

特别说明:

a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的小文件,用来保存一些站点的用户数据,作用是让浏览器为用户定制内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。

b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。

c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。

d0819931ce8a93c350a2dd4567f65548.png

步骤3、按照需求,配置采集任务

接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程

bfdd6489a1fa37f1f692bd9d85cb692d.png

可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。

b084b824a3dbd06b590fbcdf31c4c739.png

场景二:输入账号、密码、验证码登录

以八爪鱼官网为例,登录网址为:https://www.bazhuayu.com/login

与上面的方法一致,打开八爪鱼的浏览器模式,输入账号、密码、验证码即可。

9f3a46d55ad610235a7e2828f36ec8c1.png

获取登录后的Cookie,记住登录状态。然后再按需求配置采集规则,具体请参考 新手入门课程,这里不再赘述。

39d071777760bb48f708b38fda7e56e5.png

特别说明:

a. 用浏览器模式登录时,支持多种类型的验证码,包括输入型、滑块、手势等,因为是我们自己手动操作,跟在浏览器中相同。

b. 记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法有一定局限性,部分网站是不支持Cookie登录的。此时,我们就可以用下面的方法。

方法二、配置【输入账号-输入密码-点击登录】的流程

针对需要登录的网站,我们也可以在采集流程中配置【输入账号-输入密码-点击登录】步骤,模拟登录。这样,八爪鱼在执行采集任务时,就会走一遍输入账号密码的流程。

场景:输入账号、密码、验证码登录

以八爪鱼官网为例,

登录网址为:https://www.bazhuayu.com/login

步骤1、配置输入账号、输入密码的流程

网页打开以后,选中网页的用户名输入框,在弹出的操作提示框中,输入账号。再选中网页的密码输入框,在弹出的操作提示框中,输入密码。

51ab6b4b577124198ddbf061fcafefae.png

步骤2、使用【验证码识别】控件,实现自动打码

账号、密码一般都是固定的,因此可以用文本输入的方法。但是,验证码是变化的,并不固定。

八爪鱼提供【验证码识别】控件,接入优质打码平台,可以实现自动识别验证码。以下为具体配置过程。

先选中页面中的验证码输入框,再弹出的操作提示框中,选择【识别验证码】,再在页面中选中验证码图片,根据提示,继续在页面中选中【登录】按钮(选中页面中点击登录的按钮,根据网页实际情况来)。

184834d96d4199c659bffbd177878c71.png

接下来,需要配置【识别失败】场景。点击【确定】,八爪鱼会自动提交一个错误验证码,此时页面中出现【验证码错误】提示。点击页面中的【验证码错误】,再点击操作提示框中的【确认错误】。

8e4107782c41b2a1c427b6bdc0a17645.png

特别说明:

a. 为什么要配置【识别失败】场景?因为自动识别验证码,可能存在识别错误的情况(网站需要多次输入验证码/八爪鱼对接的打码平台有0.1%概率出错)。八爪鱼需要知道识别错误后的提示是什么,根据是否出现提示判断是否识别失败。如果识别失败,则再次自动识别,直至识别正确。

下面,需要配置【识别成功】场景。点击【开始配置识别成功场景】,在弹出的操作提示框中,输入正确的验证码,然后点击【应用到网页并完成配置】。可以看到,登录成功。

7ce40bb6ea9247021d310d3ad6d826c8.png

步骤3、按照需求,配置采集任务

登录完成以后,按照需求配置采集规则即可。在这里仅提取2个简单的字段。

b0e4059e16cd2e64fff39887c5dceb34.png

步骤4、启动采集,采集数据

启动本地采集后,可以看到,八爪鱼按照我们配置好的流程,自动地输入账号、密码、识别验证码,完成登录并采集数据。

9381576eee03d022157f7e5f8f0bc1d2.png

特别说明:

a. 勾选【自动识别验证码】后,自动识别才会生效,如果不勾选则需要自己手动输入验证码。【自动识别验证码】会消耗验证码余额,如果没有余额需 购买验证码套餐。

b. 进行本地采集时,第一次自动将验证码识别后,需帮助系统点击一次【确认】。进行云采集时,这个过程由八爪鱼自行完成,无需用户手动确认。

c.【自动识别验证码】,只支持自动识别两种类型的验证码:输入验证码、和部分滑块验证码,具体请查看 验证码套餐简介。

d. 【自动识别验证码】默认勾选 Ajax,超时时间为 5 秒。可根据网站实际加载情况进行更改,具体请查看 Ajax教程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值