有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。
什么是同类网页?结构相同、字段差不多的网页。例:
京东商品详情页:
豆瓣电影详情页:
https://movie.douban.com/subject/26387939/
https://movie.douban.com/subject/6311303/
https://movie.douban.com/subject/1578714/
一、【URL循环】操作演示
示例网址:
https://movie.douban.com/subject/26387939/
https://movie.douban.com/subject/6311303/
https://movie.douban.com/subject/1578714/
https://movie.douban.com/subject/26718838/
https://movie.douban.com/subject/25937854/
https://movie.douban.com/subject/26743573/
https://movie.douban.com/subject/20451290/
https://movie.douban.com/subject/26816383/
采集需求:
采集每个豆瓣电影详情页的电影
Step1. 打开网页
在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。同时,可以看到,流程中已自动创建【循环-打开网页】步骤。

本文介绍了如何使用八爪鱼采集器进行html批量采集,特别是针对同类网页的【URL循环】操作。通过手动输入或导入文件的方式设置URL,配置所需字段并启动采集,适用于需要高效抓取大量网页数据的场景。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



