浅研Spide-Flow

最新推荐文章于 2024-03-20 09:36:39 发布

FansRD

最新推荐文章于 2024-03-20 09:36:39 发布

阅读量1.8k

点赞数

文章标签： python json 开发语言 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aventador_L/article/details/127302318

版权

Spide-Flow功能文档

Spide-Flow功能文档目录

一、验证码抓取

二、验证码值

四、登录结果

五、开始抓取

六、定义变量

七、页面数据

八、存入数据库

九、定时任务

十、登录信息返回

十一、百度OCR识别

十二、验证码类型识别成功率

十三、基于OCR技术登录返回识别错误信息

十四、多项目同时爬取信息展示

十五、多接口爬取任务并返回错误信息

一、验证码抓取

首先找到登录的网站

2.打开F12开发者工具,输入账号密码,验证码故意出错,会出现生成验证码的接口,接口为GET请求,那么就在软件里设置为GET请求,之后打开接口就会出现正确验证码

验证码值

1.将这个页面的数据进行爬取,每次登录就会爬取正确的验证码,将爬取的验证码保存,变量名为validCode.

登录

登录的时候输入账号和密码还有验证码,只有输错账号或者密码,输正确验证码,才会暴露账号密码的接口.
可以先输错密码获取正确加密后的账号

再次登录输错账号就可以获取正确的密码

2.将之前获取到正确的验证码在登录界面进行替换

登录结果

登录成功后会返回一个OK的信号.
如果账号有误或者密码有误会返回一个账号或者密码错误的信息.

开始抓取

1.进去后选择要抓取的页面,之后打开F12开发者工具,选择要爬取的数据接口

打开页面接口就会出现所需要的数据

2.之后将JSON数据解析

定义变量

${resp.html}解析当前页面
${json.parse(jsonSt)}将页面解析为JSON数据类型
${extract.jsonpath(jsonobj,'rows')根据jsonpath抽取Jsonobj根节点下’rows’的属性,封装为datas

页面数据

1.获取到数据组将需要的数据进行爬取,比如温度,PH,氨氮,化学需氧量

八、存入数据库

1.首先对本地数据库进行配置,测试连接状态

2 .连接成功后,将需要存入数据库的数据,通过SQL语句进行存入

INSERT INTO table (对应字段) VALUES(对应值)

九、定时任务

配置定时任务可以配置每分钟,每小时等执行一次,根据开发所要的需求进行配置.

十、登录信息返回

验证码

将账号密码输入正确,故意将拖动滑块错误会暴露验证码接口,爬取验证码,这个拖动滑块验证码爬取正确率为100%,返回信息为正确的验证码.

账号密码

如果输错账号会出现一个接口

打开接口会会接受到一个信息,用户名不存在,将页面信息存入数据库可以清楚知道登录是那一步出现的问题.

密码输错同样会出现一个接口

打开接口会出现一个错误密码提示

页面数据

页面数据如果出现问题,数据库同样会导入空值数据,或者数据没有进行存入进去,表明在拉取数据这一步出现了问题.

百度OCR识别

需要到百度进行注册一个OCR账号

2.注册之后在应用列表中创建一个应用

3.根据创建后生成的AppID,API Key,Secret Key到Spide-Flow进行OCR配置,

配置完成后就可以进行爬取时调用OCR插件.

4.OCR插件需要从Spide-Flow文档中获取地址进行源码下载.

5.下载完成后在 spider-flow-web pom.xml引用

6.基于百度OCR技术实现每人每月免费次数一千次,无论失败和成功都算作一次.

普通识别和高精度识别的收费标准不同,会记录每日的调取量和成功量.

普通识别收费为:0.005/次

精准识别收费为:0.03/次

十二、验证码类型识别成功率

随机生成的正确验证码存入数据库与 OCR识别的验证码存入数据库进行对比计算成功率.

大小写字母加数字类型测试100次成功率为6%
文字类型测试100次成功率为7%

成功率和测试的图片也有一定的关系.

十三、基于OCR技术登录返回识别错误信息

1.从生成正确的验证码数据库中和OCR识别生成的验证码的数据库中拿出来对比进行返回页面正确或者错误信息.

2.暂时模拟返回页面错误信息

多项目同时爬取信息展示

1.模拟多任务同时爬取数据

2 .设定HSE2验证码错误,HSE账号错误

①数据库可以看到项目的名称和错误的信息.

②如果验证码错误同时会显示密码错误.

③如果验证码正确账号错误,会出现正确的验证码同时报错账号错误信息,登录错误的时间.

多接口爬取任务并返回错误信息

模拟多接口任务爬取

①爬取的接口实际为一张图片并无数据,接口返回的信息为ok

②在获取业务数据离进行页面的对比如果为’ok’则返回true

③在返回日志中用三元运算符进行返回日志,如果为true则无数据

④反之爬取的接口为实际所需数据则返回有数据

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
浅研Spide-Flow

浅研爬虫
复制链接

扫一扫

FansRD CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

153万+: 周排名

174万+: 总排名

6078: 访问

: 等级

78: 积分

138: 粉丝

0: 获赞

5: 评论

15: 收藏

私信

关注

热门文章

最新评论

如何在Linux环境搭建RocketMQ
AnonymityStalker: 修改了内存启动还是8g大佬遇见过吗
浅研Spide-Flow
^ۣۖิ不ۣۖิ变ۣۖิ灬ۣۖ: 大佬post请求如何传body体，或者如何定义json对象
二维码生成及批量生成并打包
钟徽: 请问你用这个方法生成的二维码会不会很慢，我生成100个需要48秒，效率太低了怎么解决呢
二维码生成及批量生成并打包
钟徽: 请问如果压缩包有命名要求，怎么做
二维码生成及批量生成并打包
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。