采集数据时遇到文章的内容分成多页显示,我们要怎么采集呢?
我们可以使用免费采集器来设置,将有翻页的内容重新合并成一篇文章即可。
目录
1. 分页配置
在简数采集器内容分页配置非常简单,只需要鼠标点击三下即可完成配置:
我们以content字段为例子:
- 勾选【该字段内容使用了分页】;
- 勾选【分页点选开关】 或者点击【分页区域Xpath】的输入框,以便开启进行第3步的操作;
- 点选分页链接所在区域。完成!
详细操作如下图:
2. 分页高级设置(可选)
不需要更多设置的,这一步可以跳过使用默认设置即可。
点击【更多分页设置】按钮,分页还可以配置其它参数。
- 分隔符:两个页面内容合并的分隔符;(
<br/>
标签是换行的意思) - 最大分页数量:采集最大分页数量(0则不限制,计数包含首页);
- 分页链接包含字符:当采集的链接包含填写的字符,该链接会保留,不包含则会被过滤;
提示:通常用于当点选的分页区域含其它非分页链接时,可定义过滤非分页链接。
还有个地方需注意:
分页限制--目前分页链接采集只支持:首页全部列出页数的模式(即其它分页的链接全部在一个页面显示出来)。
如下图:1,2,3页的内容可以完整采集到分页内容,合并成一篇文章;