火车头采集目标网站有什么好处
火车头采集目标网站有什么好处呢?
它会根据我们指定的网站进行采集,采集到的内容和我们网站的内容相关性高。
为什么不用站群软件采集呢?站群软件和火车头采集的方式不一样,站群软件用的是泛采集,而火车头是定向采集。泛采集是指:根据我们所设计的关键词,搜索相关内容进行采集,比如说,站群软件内置了几千个网站,然后从这些网站中来采集内容,这些内容是根据你设置的关键词来搜索的。然后索引几千个网站来采集相关内容,这些网站一般都是门户站,或者是通过搜索引擎来索引一些百度知道相关内容,这会导致用站群软件采集的文章质量不高,并且采集的文章重复率会很高,因为你采集的文章别人也可能采集了,因为用站群软件的人不只你一个。
所以说,火车头采集的好处就是:我想采集哪个网站就采集哪个,网站内容的相关性更高。文章质量也会更加高一些。
如何自主学习火车头采集
可以访问这个网站:火车头论坛使用教程
实战采集步骤
我这里来演示火车头如何采集:
比如说,我来采集虚幻私塾的文章:
1.打开火车头,新建任务
首先任务名取为:“虚幻私塾”
这里分三步:
- 采集网址规则
- 采集内容规则
- 发布内容设置
这一节,我们讲解前2步:
首先,我们先添加采集的网址,
- 单条网站:采集制定的网页
- 批量/多页:采集文章列表
那在这里,虚幻私塾有很多列表,我们就以批量多页来做示范:如下图所示,完成后,点击“添加“ 和 ”完成”
You must be logged in to view the hidden contents.
这样,我们就定义好了规则。
点击“测试网址采集”:
就可以看到:所有的分页都被采集到了:
点击“返回修改设置”。接着再点击保存。
然后右键任务名称“虚幻私塾”,点击“编辑任务”:
从第一步随意找到一篇文章,双击,即可以这篇文章为典型文章采集了。
我们会看到采集到的文章内容有很多html标记,所以我们需要对内容定义一个“规则”。
这里先把“作者”“时间”“出处”删除。
然后对标题和内容进行筛选:
标题:
- 开始:<span class=”course-detail-heading”>
- 结束:<span
内容:
- 开始:<div class=”col-lg-9 col-md-8 course-detail-content”>
- 结束:<div class=”panel panel-default hidden-xs pt10″>
这里可以不断的测试,采集出来的数据是否正确,如果没有问题
保存设置,然后勾选采网址,采内容。
接着开始采集即可。
采集完成后,我们可以查看下采集的数据是否正确:
如果都有,说明采集的数据符合我们的要求。