转:使用火车头采集器笔记

官方手册:

http://faq.locoy.com/q-741.html

项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼
注意事项

采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配

网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:

"link":"[参数]"

<a target="_blank" href="[参数]">

<div class="tit">(*)href="[参数]"

 

提前规则和拼接地址参数上下一一对应

<a href="[参数]" target="_blank">[参数]</a>

[参数2][参数1]

 

1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页

2、新建任务分组后可新建任务(即具体需采集的数据)

3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布

右键官方demo任务——编辑可查看任务的

 

4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多

5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换title、content字段自己新建,

选择插入数据库后实时数据就没有了

INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')

 

6\发布可按照是正序还是倒序发布
————————————————
版权声明:本文为CSDN博主「爱代码也爱生活」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/nuli888/article/details/51866055

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值