文章内容分页采集方法-免费采集器

采集数据时遇到文章的内容分成多页显示,我们要怎么采集呢?

我们可以使用免费采集器来设置,将有翻页的内容重新合并成一篇文章即可。

目录

1. 分页配置

2. 分页高级设置(可选)


1. 分页配置

简数采集器内容分页配置非常简单,只需要鼠标点击三下即可完成配置:

我们以content字段为例子:

  1. 勾选【该字段内容使用了分页】;
  2. 勾选【分页点选开关】 或者点击【分页区域Xpath】的输入框,以便开启进行第3步的操作;
  3. 点选分页链接所在区域。完成!

  详细操作如下图:

2. 分页高级设置(可选)

不需要更多设置的,这一步可以跳过使用默认设置即可。

点击【更多分页设置】按钮,分页还可以配置其它参数。

  • 分隔符:两个页面内容合并的分隔符;(<br/>标签是换行的意思)
  • 最大分页数量:采集最大分页数量(0则不限制,计数包含首页);
  • 分页链接包含字符:当采集的链接包含填写的字符,该链接会保留,不包含则会被过滤;

  提示:通常用于当点选的分页区域含其它非分页链接时,可定义过滤非分页链接。

还有个地方需注意:

分页限制--目前分页链接采集只支持:首页全部列出页数的模式(即其它分页的链接全部在一个页面显示出来)。

  如下图:1,2,3页的内容可以完整采集到分页内容,合并成一篇文章;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值