1,新建一个规则
右击任意分组,选择新建任务如下图:
2,添加起始网址
所谓起始网址就是采集器采集网站的入口地址,一般就是文章的列表页地址如:http://news.qq.com/newssh/shwx/shehuiwanxiang.htm,因为列表有分页。我们必须把分页也添加到
采集器里面,我们先看下分页的规律。
由此我们可以推算出:
像这样有规律的分页如何在采集器里面添加如下图:
本例是用了等差数列。
上图看到我们用“(*)”代替变化的页码。
首项:是指开始的数字,上面我们分析了页码是从“2”开始的;
项数:是指需要采集的页数;
公差:相邻页码之间的数字差,读过书的人都知道公差是什么;
预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。
如果正确就点击右边的“添加”按钮,然后再点击“完成”按钮。
下面还有等比数列&#x