火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法。
-
下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说)
-
下载好后,双击火车头图标打开采集器。
-
进入火车头主程序页面。
-
单击新建的黑小三角,新建任务。
-
填写任务名,点击第二步。(采集网址不截了,以防广告)
-
分析目标页面,找到要采集的内容。
-
查看源文件,找到要采的内容(复制内容去搜索)
-
建议用360浏览器或者360极速浏览器,找到目标内容,分析目标内容前后的代码。
-
此时标题的前后代码为“<h2>”、“</h2>”。
-
双击采集器“标题”。
-
选择前后截取,把前后代码分别填进去,如图。
-
或者,选择正则提取,如图,点击确认。
-
标题采集规则制作完成,开始分析其他标签规则。
内容中有不要的代码(如图div代码不要),可以排除。
-
双击内容,进入数据处理,点击添加,出现菜单,选择html标签过滤。
-
勾选不要的代码。
-
检查要的内容是否全部采集进来了。