spiderflow的初步使用

最新推荐文章于 2025-01-02 08:00:00 发布

老板娘来碗面

最新推荐文章于 2025-01-02 08:00:00 发布

阅读量3.5k

点赞数 2

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42279465/article/details/131123557

版权

Spider-Flow是一个无需编程的爬虫平台，通过图形化界面定义爬虫流程。用户可以从Gitee拉取项目，配置数据库连接和定时任务，启动后可抓取网站数据。以电影网站为例，介绍了如何分析网页结构，配置URL、页码，抽取信息并遍历数据，设置翻页条件，最后将数据输出到数据库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、简介

spider-flow 是一个爬虫平台，以图形化方式定义爬虫流程，无需代码即可实现一个爬虫

官网地址：https://www.spiderflow.org/

2、spiderflow的初步使用

2.1拉取，配置和启动

从gitee上拉取

执行db里面的sql

里面会有6张表

修改配置文件里面的数据库连接的账号密码和地址

修改配置文件里面的开启定时任务，设置为true时定时任务才生效

spider.job.enable=true

直接启动，访问端口号即可，启动成功

2.2参照实例写一个爬虫

2.2.1爬取站点分析

https://www.piaohua.com/html/dongzuo/

这是一个电影网站

我想爬取的是电影名称，类别，产地等信息

首先查看网页源代码，看获取的信息是否能从网页中拿到，有的是js动态加载的不能直接获取

这种可以直接获取

然后试着分析页码，点不同页码的时候连接会发生变化，点第四页，数字就变成了4

然后确定要爬取的信息

2.2.2开始写爬虫

2.2.2.1新建爬虫

2.2.2.2配置爬虫url

在url中使用${}来放动态参数，类似jquery。(参考官网表达式语法--基本用法--动态拼接url)

2.2.2.3配置页码和拉取信息

三元运算符和java中的一样(参考官网表达式语法--三元运算符)

获取页面内容获取页面中class='col-md-6'的所有内容（参考官网函数说明--抽取函数--selectors）

2.2.2.4 遍历

上面的movieList是一个集合，遍历这个集合

参考官网（快速入门--循环节点）,list.length是获取集合的长度，参考官网（函数说明--list--length）

2.2.2.5设置翻页条件

当页码<=10的时候继续爬取

流转条件：当表达式返回true时将流向下一个节点，否则不流转,不填时默认流转

参考官网（快速入门--连接线）

2.2.2.6 定义变量

2.2.2.7输出节点

2.2.2.8测试

点击左上角的测试即可看到输出内容

2.2.2.9输出到数据库

1.在输出节点选中输出到数据库

2.添加数据源

3.输出字段和数据库字段保持一致即可

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。