八爪鱼 ajax 循环采集,网页数据采集五大循环方式详解 - 八爪鱼采集器

在八爪鱼中,创建循环列表有两种方式,一种是通过点击页面元素,选择相似的项,由八爪鱼自动创建的。适用于列表信息采集、列表及详情页采集。当自动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。

循环的高级选项中,有五大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。

一、URL循环(云采集可实现加速)

适用情况:在多个同类型的网页中,网页结构要相同

二、文本循环(云采集可实现加速)

适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息

实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。

三、单个元素循环

适用情况:需循环点击页面内的某个按钮。例如:循环点击“下一页”按钮进行翻页。

实现方式:通过单个元素循环方式,达到循环点击“下一页”按钮,进行翻页目的。

定位方式:使用XPath定位,始终定位到“下一页”按钮。

操作示例:

① 选中“下一页”按钮 → 选择“循环点击下一页”,建立翻页循环。

82c34513eb14ba2963a12cfa0f0349d4.gif

② 循环方式为“单个元素循环”,通过“单个元素循环”中的定位XPath,不断点击“下一页”按钮实现翻页。

f5e0b8bcc421661c2d09db8f27298ff2.png

四、固定元素列表循环(云采集可实现加速)

适用情况:网页上要采集的行数是固定数目的。

实现方式:通过固定元素列表循环,循环页面内的固定元素。

定位方式:使用XPath定位,一条XPath对应循环列表中的一个元素。

操作示例:

① 选中一个文章链接 →“选中全部”→ “循环点击每个链接”,建立循环列表。

b25c2f18b42456e0fcaf9cbfdc3be3a5.gif

② 自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条XPath,一一对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。

154a2602689f8dbfe732127ec718d004.png

这里涉及了XPath相关内容,可参考此 XPath教程

五、不固定元素列表循环

适用情况:网页上要采集的行数不是固定数目。

实现方式:通过不固定因素列表循环,循环页面内的不固定元素。

定位方式:使用XPath定位,一条XPath对应循环列表中的多个元素。

操作示例:

① 通过观察八爪鱼固定元素列表循环中生成的XPath:

//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]

//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]

......

//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]

20条XPath具有相同的特征:只有LI后面的数字不同。根据这个特征,我们可以写一条通用XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这一条通用Xpath,可定位到页面中的全部10条文章链接。

将循环方式改为“不固定元素列表循环”,并将修改后的XPath填充进去。

c199bc275a292f61b64ce07a4e7b41f3.gif

② 可以看到,这条通用的XPath,对应循环列表中的所有20个元素(也可以看成对应浏览器页面的20条文章链接)。

a4ab7e40f6ffd8a891efc014e9c1f415.png

同理反推,也可以将不固定元素列表改成固定元素列表。

这里涉及了XPath相关内容,可参考 XPath教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值