八爪鱼批量爬取html中的数据,批量采集网页数据 - 八爪鱼采集器

最新推荐文章于 2024-08-01 11:27:04 发布

weixin_39938522

最新推荐文章于 2024-08-01 11:27:04 发布

阅读量5.5k

点赞数 2

文章标签：八爪鱼批量爬取html中的数据

有时候，我们有大量同类网页，希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】，可实现此需求。

什么是同类网页？结构相同、字段差不多的网页。例：

京东商品详情页：

豆瓣电影详情页：

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

一、【URL循环】操作演示

示例网址：

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

https://movie.douban.com/subject/26718838/

https://movie.douban.com/subject/25937854/

https://movie.douban.com/subject/26743573/

https://movie.douban.com/subject/20451290/

https://movie.douban.com/subject/26816383/

采集需求：

采集每个豆瓣电影详情页的电影

Step1. 打开网页

在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址，粘贴进网址输入框中，并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

打开右上角的【流程】按钮，可见流程中已自动创建【循环-打开网页】步骤。

特别说明：

a. 手动输入的url数量不得大于1万个，如有超过1万url，请选择【从文件导入】，具体请查看教程网址输入升级

b. Url还可以选择【从任务导入】和【批量生成】，具体请查看教程网址输入升级

Step2.按照需求配置所需的字段。

Step3. 配置完成后启动采集。采集到的数据示例如下图所示：

二、Url循环的使用场景

1、【URL循环】的任务，在进行【云采集】时，可有效进行任务拆分，分配到每个云节点上并发采集，极大提高采集速度

2、有的网页在采集时，点击跳转至详情页后，无法返回列表页。可以先采集详情页的链接(URL)，然后通过【URL循环】，批量打采集每个详情页内的数据。

作者：西瓜

编辑：Aisling

weixin_39938522

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。