火车头采集器

ikscher

于 2013-09-10 13:01:54 发布

阅读量5.6k

点赞数 1

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ikscher/article/details/11522579

版权

学习笔记专栏收录该内容

18 篇文章 0 订阅

订阅专栏

火车头采集器功能还是很强大的，不过如果涉及到采集数据导入自己数据库的话，可能自己写采集的导入更有效率点（不过要有点实力了）。介绍下火车头采集的一点点知识点：

1：采集的开始，就是新建任务（可以先建立分组，在组下建立任务）。

2：之后呢，就是建立规则了，分四步：

1）：采集网址规则

2）：采集内容规则

如果采集的结果含有参数1，参数2等的，那么应该是之前的设置采集规则没有删除组合结果的原因。

火车采集器里支持两种正则，一个纯正则，一个参数正则。

关于纯正则：

在标签中用正则表达式采内容的格式是这样：

开始代码(?<content>正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用\转义。

比如这个：<div class="newsbox">(?<content>[\s\S]*?)</div> ，这里我们需要的是<div>标签里面的内容，所以可以这样写。其他的延伸点：

<div class="class_\d">(?<content>[\s\S]*?)</div>也是采集div标签里面的内容，

<a href="v_\d.html">(?<content>[\s\S]*?)</div></a> 采集a标签的内容。

关于参数正则：

这个不算是正则，可以对采到的内容进行组合。输入框两边都不得为空，后边的组合结果参数是按正则匹配内容的顺序来写的。

比如：

正则匹配内容：<a href="[参数]" alt="www" title="[参数]" ></a> ，组合结果里面，[参数1] 就是href对于的内容，[参数2]就是title对应的内容。

一般来说，如果页面有多个重复的标签div，想采集这个div标签里面里面里面的标签内容，那么最好从最外层这个重复的标签div开始，然后采用内容过滤的方法来采集到里面里面里面的标签内容。

3）：发布内容设置

免费版，一般选择方式三，导入到自定义数据库access中。

4）：文件保存及高级设置

这个一般不操作

如果报错：该任务您没有选择采网址，采内容的任何步骤，请检查任务====》任务首页，勾选任务右边三个复选框。

附：http://www.locoy.com/Buy/FunctionComparison/

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。