如果文章页面中,有上一篇、下一篇文章,推荐文章等链接,我们可以利用这个特点,仅配置采集一个文章页面,即可采集整个网站或某个分类下的所有文章,实现自动循环采集全站数据,非常方便简单。
使用方法如下:
1. 配置常规的采集规则
先使用简数采集器的智能向导模式,自动智能生成采集规则,无需懂技术,可视化操作。
相应教程可看:自动生成采集规则的网页采集器-CSDN博客
2. 启用循环采集
打开简数采集器对应任务的详情页提取器配置页面,点击上方的【无限极启用配置】按钮,在【启用无限极采集】选项处勾上,表示启用该功能,然后保存。
可以控制每一个详情页获取的链接最大数量,和每次采集启动无限极采集功能获取的详情链接总数量。
3. 选择循环采集的区域
启用后,点击【无限极点选开关】,然后在可视化区域,移动鼠标点选可以循环采集的详情页链接区域,一般是 “下一篇文章” ,“相关文章推荐” 等区域(包含文章链接的区域即可,不要求精确到a链接标签),保存,接着回到简数采集器任务界面,启动采集即可。
这样设置后就可以实现自动循环采集全站文章,无需去寻找对应的列表页网址,方便简单。