采集的内容分散在网页不同位置且不连贯,但是想要将它们合并为一个内容该怎么办?
在数据采集器里一般有两种方法来解决:
(1)分开多个字段去采集不同位置的内容,采集完成后再进行合并操作,或者导出发送时进行组合,大部分网页采集器都可以实现;
(2)设置采集规则时,可以指定多个不同区域的内容采集到一个字段里,启动采集后自动合并采集内容了,更加方便,接下来着重介绍该方法的具体操作步骤。
目录
1. 开启合并功能
这里以简数采集器为例,打开一个采集任务的详情提取器配置页面,选择content字段,然后勾上【选择多值】功能。
2. 选择合并的内容
假设要合并标题和文章的第一段内容,先用鼠标点选标题,再用鼠标点选正文的第一段内容即可,这两个位置的内容都有一个绿色框。
简数采集器配置采集规则就是这么简单,鼠标点选就行,完全不用懂代码。
3. 合并的分隔符
选择多值功能默认的分隔符是英文逗号,为了正文排版更好看,我们这里改成换行标签<br>更加合理。
点击content字段的数据处理按钮 --》点击【高级提取】选项卡 --》【多值分隔字符】输入 <br> ,最后保存。
采集自动合并内容配置就完成了,只需几步操作就可以实现,简单高效。