采集内容合并

采集的内容分散在网页不同位置且不连贯,但是想要将它们合并为一个内容该怎么办?

在数据采集器里一般有两种方法来解决:

        (1)分开多个字段去采集不同位置的内容,采集完成后再进行合并操作,或者导出发送时进行组合,大部分网页采集器都可以实现;

        (2)设置采集规则时,可以指定多个不同区域的内容采集到一个字段里,启动采集后自动合并采集内容了,更加方便,接下来着重介绍该方法的具体操作步骤。

目录

1. 开启合并功能

2. 选择合并的内容

3. 合并的分隔符


1. 开启合并功能

这里以简数采集器为例,打开一个采集任务的详情提取器配置页面,选择content字段,然后勾上【选择多值】功能。

 

2. 选择合并的内容

假设要合并标题和文章的第一段内容,先用鼠标点选标题,再用鼠标点选正文的第一段内容即可,这两个位置的内容都有一个绿色框。

简数采集器配置采集规则就是这么简单,鼠标点选就行,完全不用懂代码。

3. 合并的分隔符

选择多值功能默认的分隔符是英文逗号,为了正文排版更好看,我们这里改成换行标签<br>更加合理。

点击content字段的数据处理按钮 --》点击【高级提取】选项卡 --》【多值分隔字符】输入 <br> ,最后保存。

 

采集自动合并内容配置就完成了,只需几步操作就可以实现,简单高效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值