火车头采集器 v9免费版使用

1.进入火车头官网(http://www.locoy.com/download) 下载v9版
如下图:
这里写图片描述

注意:如果电脑没有安装.NET 4.0框架 一定要在这个界面下载安装

2.装好软件之后开始使用:
如图:
这里写图片描述
右击 ->测试分组:
然后可以选择新建分组 也可以直接新建任务 在下面新闻资讯等分组里面也可以新建任务
新建任务后 进入如下页面:
这里写图片描述
采集过程无非分成三部:
1.网址采集(根据要采集的网址规律定义好规则) 2.内容采集规则(根据要采集的内容配置好采集规则) 3.内容发布规则(将采集的内容 发布到配置好的地方)
下面以采集58同城 求职招聘下 面试技巧栏目文章为例:
这里写图片描述
该栏目第二页网址为 http://www.58.com/mianshizhinan/list_9_2.html
第三页为 http://www.58.com/mianshizhinan/list_9_3.html
根据规律 我们开始操作 直接点击向导添加:
这里写图片描述

代表地址参数那个位置 从1开始到240停止 也就是从第一页到底240页结束
此时点击确定之后 可以 点击网址采集测试
如图:
这里写图片描述
你会发现测试时 每个列表下会出现很多网址
而只有后面那种格式的才是文章页面的网址(在58网站点击文章进去就能发现)
自动获取链接网址下面 :有个链接过滤必须包含下面 写个 /20 此时再测试就能得到我们需要的了
如图:
这里写图片描述

2.开始第二步 内容采集规则
如图:
这里写图片描述
这里就不多说 就是根据页面html代码规律 来填写规则获取(左边)自己想要的内容
注:如果要重复匹配一个网页的内容 可以勾选循环匹配
数据处理里可以对采集的内容进行处理
3.开始第三部 内容发布规则
以连接MySQL 数据库为例
如图:
这里写图片描述
连接之后保存 就可以开始采集任务了
注意:采集完成之后你会发现MySQL数据库里并没有任何东西
因为免费版的只会生成sqlite数据库文件的格式
如图:
这里写图片描述

选中该任务 右击-> 打开Date文件夹 就可以看到这个sqlite数据库格式的文件夹了 然后数据库管理软件对数据库数据进行转换 转换成别的数据库文件就可以了
这里推荐使用 Navicat Premium 的数据传输功能 不过要注意每个数据库之间的差异性 有问题多百度吧 我当时数据转换成sql server 遇到很多问题 不过还好都解决了

第一次写博客 喜欢的加一波关注@@

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值