spiderflow的初步使用

1、简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

官网地址:https://www.spiderflow.org/

2、spiderflow的初步使用

2.1拉取,配置和启动

从gitee上拉取

执行db里面的sql

里面会有6张表

修改配置文件里面的数据库连接的账号密码和地址

修改配置文件里面的开启定时任务,设置为true时定时任务才生效

spider.job.enable=true

直接启动,访问端口号即可,启动成功

2.2参照实例写一个爬虫

2.2.1爬取站点分析

https://www.piaohua.com/html/dongzuo/

这是一个电影网站

我想爬取的是电影名称,类别,产地等信息

首先查看网页源代码,看获取的信息是否能从网页中拿到,有的是js动态加载的不能直接获取

这种可以直接获取

然后试着分析页码,点不同页码的时候连接会发生变化,点第四页,数字就变成了4

然后确定要爬取的信息

2.2.2开始写爬虫

2.2.2.1新建爬虫

2.2.2.2配置爬虫url

在url中使用${}来放动态参数,类似jquery。(参考官网表达式语法--基本用法--动态拼接url)

2.2.2.3配置页码和拉取信息

三元运算符和java中的一样(参考官网表达式语法--三元运算符)

获取页面内容 获取页面中class='col-md-6'的所有内容(参考官网 函数说明--抽取函数--selectors)

2.2.2.4 遍历

上面的movieList是一个集合,遍历这个集合

参考官网(快速入门--循环节点),list.length是获取集合的长度,参考官网(函数说明--list--length)

2.2.2.5设置翻页条件

当页码<=10的时候继续爬取

流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转

参考官网(快速入门--连接线)

2.2.2.6 定义变量

2.2.2.7输出节点

2.2.2.8测试

点击左上角的测试即可看到输出内容

2.2.2.9输出到数据库

1.在输出节点选中输出到数据库

2.添加数据源

3.输出字段和数据库字段保持一致即可

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值