SpiderFlow爬虫获取网页节点

最新推荐文章于 2024-05-21 07:00:00 发布

飞歌Fly

最新推荐文章于 2024-05-21 07:00:00 发布

阅读量4.9k

点赞数

分类专栏： javaScript 文章标签：爬虫 json 前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35430000/article/details/128957763

版权

javaScript 专栏收录该内容

61 篇文章 0 订阅

订阅专栏

SpiderFlow爬虫获取网页节点

一、SpiderFlow 文档地址：https://www.spiderflow.org/

二、问题：获取一篇文章的标题、来源、发布时间、正文、下载附件该怎么获取？

举例：【公示】第三批智能光伏试点示范名单公示

三、抓取网页步骤（简单版，分页、循环、多分支暂不涉及，具体看文档）

1.设置抓取网页链接

2.设置参数，如果需要设置参数的话（上面例子不需要参数）

3.执行抓取

抓取后返回抓取结果，结果默认就叫resp。可以在Var变量中定义具体的数值，定义的变量后面的流程都可以使用，使用方法为${变量名}，此时定义了一个变量叫responseData，这个变量代表resp.html

resp都有什么？

resp.html 为页面的HTML

resp.json 为json结果

具体区分看下图，文档地址：https://www.spiderflow.org/course/variable.html#%E7%88%AC%E5%8F%96%E7%BB%93%E6%9E%9C

4.输出结果，检查返回的结果是否正确

可以看到在测试窗口中已经展现了resp.html完整的页面结构，也就是在浏览器中按F12看到的前端页面完整的节点结构

四、要获取标题、公示时间、地址、正文等内容还需要学习了解如何获取节点

1.获取节点

（1）抽取函数 extract，文档地址https://www.spiderflow.org/function/extra.html#selector

获取单个节点使用 selector

获取多个节点使用 selectors

举例获取标题

标题只有一个，所有用 selector，可以看到标题所在的层级如下 #app/.artDetail/.ant-row/.artDetail_content/h2 ,那需不需要一级一级往下找呢？

${extract.selector(resp.html,'#app .artDetail .ant-row .artDetail_content h2')}

答案是不需要，只要能保证父级唯一就行，如果父级不唯一则继续往上找

两级就可以

${extract.selector(resp.html,'.artDetail_content h2')}

可以看到标题已经输入成功了

2.获取 html、文本、href链接

3.css 选择器

Css 选择器包括元素选择器、类选择器、id选择器、后代选择器、子代选择器等等

具体用法可以参考 css选择器文档

https://www.runoob.com/cssref/css-selectors.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SpiderFlow爬虫获取网页节点

SpiderFlow爬虫获取网页节点
复制链接

扫一扫

专栏目录

飞歌Fly CSDN认证博客专家 CSDN认证企业博客

码龄8年

111: 原创

1万+: 周排名

3362: 总排名

165万+: 访问

: 等级

7410: 积分

2893: 粉丝

1005: 获赞

336: 评论

3485: 收藏

私信

关注

分类专栏

linux 21篇
uni-app 10篇
HTTP 4篇
mysql 2篇
android安卓 7篇
JAVA 4篇
bug修复 1篇
vue 84篇
react 4篇
微信 9篇
javaScript 61篇
插件 2篇
css样式 16篇
前端性能优化 15篇
技术选型 9篇
mint-ui 2篇
小程序 11篇
python 3篇
webpack 5篇
git 7篇

最新评论

postcss-px-to-viewport include的用法
msilaedI: github源我下载不下来，issue里有人复制了包提交到npm了，实测可以使用，名称：postcss-px-to-viewport-update
vue element-ui列表中el-switch 开关,使用0和1
小波去哪了: 改成@click
搞清clientHeight、offsetHeight、scrollHeight、offsetTop、scrollTop
_Rookie._: offsetTop: 当前元素顶部距离最近父元素顶部的距离,和有没有滚动条没有关系。单位px，只读元素。去了一个限定词：返回一个指向最近的（指包含层级上的最近）包含该元素的定位元素或者最近的 table, td, th, body 元素。 https://developer.mozilla.org/zh-CN/docs/Web/API/HTMLElement/offsetParent
谷歌浏览器调试微信H5网页或者微信小程序的方法
马克马克: 404not 是什么原因呢
h5、微信浏览器、微信公众号清理缓存的常用方法
hjw11473: 现在是404，刷新cdn也没用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。