火车头怎么采集php的,火车采集器采集入库教程

一、安装火车采集器

75d2b212b501b8c3806f1bb7907bd1d8.png

下载后解压至电脑任意目录,例如D:\LocoySpider,双击D:\LocoySpider\LocoySpider.exe打开主程序,如下图:

72ba7d47f19c6116b10a057f8caf16a5.png

注意:运行火车采集器要求电脑安装.NET2.0框架支持。如果主程序无法运行,很可能是因为您的电脑没有安装.NET2.0框架。.NET2.0框架可以通过以下地址下载:

二、采集前的准备工作

2.1说明

由于本教程的重点是讲解采集入库,所以采集过程仅简单介绍。如果要详细了解采集过程,请参考以下资源:

2.1下载入库规则文件

火车采集器的入库规则是可以自己制作的,为了便于理解和测试,本站已经做好资讯入库规则,请通过以下地址下载:

下载解压后,将其中的Destoon 3.0资讯.cwr 复制到火车采集器安装目录/Module目录

00a79ef6192e229273d24ec03331bffe.png

2.3配置Destoon采集入库接口

Destoon采集入库接口位于您的站点目录/api/spider.php。用Editplus或其他编辑软件打开此文件。

注意:如果您的站点是UTF-8编码,请不要使用记事本编辑PHP文件。

d2e1d528d87bedc4dae51209cc8230a2.png

需要配置的参数,系统已经做了中文的注释,请注意查看。

下面讲一下常用的配置:

$verify_mode 一般设置为2,采用密钥验证

$spider_auth 设置一个最少6位的密钥,为了配合已经配置好的Destoon 3.0资讯.cwr规则,暂时请设置为12345678,后面会详细说明。

$spider_status 建议设置为2,这样采集到的信息默认会发布为待审核状态。

接口为了安全,默认需要修改一下spider.php文件名。为了方便测试,可以暂时删除此限制。注释掉以下代码即可:

if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('为了系统安全,请修改接口文件名');

设置好的配置如下:

553504f27904918ce37d3ebec4b35f6c.png

三、建立采集站点

本教程将以采集Destoon帮助文档为例说明。

打开火车采集器主面板,点击站点菜单,选择新建站点:

2f763c2742204d0582c37b7c125d8133.png

553504f27904918ce37d3ebec4b35f6c.png

四、新建采集任务

在建立的站点上点右键,从该站点新建任务:

889126fd880e430263a470452c0af4d1.png

五、设置采集网址规则

faeb4ae2d636934006fa8e5fe0985ca2.png

设置完成之后,点击开始测试网址采集:

82c1368800b5e7b3e731d4143839e9c3.png

看到目标网址,说明网址规则设置成功

e195d968b8a52cdf69d4002099c9c982.png

六、设置采集内容规则

打开任意一个目标网址,寻找标题、内容等字段匹配规则:

e195d968b8a52cdf69d4002099c9c982.png

例一:设置标题规则

3da867f3e5d938a380b6ea22c988d300.png

例二:设置内容规则

90a908fa021011d8939b2b5bd947cd36.png

设置好字段后,再次测试:

adc29154a228d54549a155876e16cc44.png

此时已经采集到正确的内容了。

七、设置采集内容发布

7.1选择Web在线发布方式发布

e37a676cf603539816f760a311304a41.png

7.2 定义Web在线发布全局设置

af1681a78971fdb67bd23da0c358dc78.png

点击添加,可以看到本站提供的Destoon 3.0资讯采集规则

1acac7a5912fc567b3081d821144038a.png

选择一个分类并保存

8c221c367bc8c202931895b36159ddd9.png

7.3 选择已保存的配置

返回到发布内容设置界面,在表格上点右键,选择添加更多发布配置

0af847f5f7eebec5d661456e7f9cd3fe.png

选择 DT文档 点击添加,然后选择分类

5ca98e7a118df8261a19c1fee29dca92.png

7.4保存任务

填写任务名称,点击保存按钮

00a79ef6192e229273d24ec03331bffe.png

八、采集内容

在刚才建立的DT文档任务上点右键,选择开始任务采集

c53fe1299c5b57aae84b004f3eacf415.png

52e00ef59d9535f821c77e5690c0321a.png

软件提示内容发布成功。

进入网站后台,资讯管理,审核资讯

eeeb6a8ff2c60acdf5c8e202d93f8221.png

可以看到采集到的资讯列表,说明发布成功。

九、采集发布规则

为了便于测试和理解,本教程默认提供了一个规则,下面讲解如果修改或者建立规则。

在建立的任务DT文档上点右键,编辑任务,进入发布内容设置,点击定义web在线发布全局设置

93c59f9adf8ea81393f5a309fab8f00a.png

d43ff6050183c8cfc136924254a9b6c9.png

3921379df74faf2270cb2dc863fe435a.png

如果需要新建一个发布规则,可以采用火车采集器自带的发布模块编辑器新建,也可以将火车采集器安装目录/Mdule目录里的Destoon 3.0资讯.cwr复制一个新文件,例如Destoon 3.0供应.cwr,然后用火车采集器模块编辑器编辑。

9.1文章发表参数

397cf773048b35b9d74725e29528f4e2.png

如果需要添加一个字段,例如作者,可以在Post数据里追加&author=[标签:作者],其中author对应Destoon资讯表的字段,[标签:作者]对应采集软件采集的字段。

如果需要知道Destoon系统某个模块具体有那些字段,例如资讯,可以在网站后台添加资讯或者会员中心发布资讯点右键,查看网页源代码,形如name=”post[xxxx]”中的xxxx即为字段,和数据库中表的字段名称一致。

备注:本教程提供的规则定义了发布地址为/api/spider.php,所以在配置spider.php参数时,删除了系统对文件名的设置。同时定义了发送的密钥auth为12345678,所以在配置spider.php参数时设置了$spider_auth = '12345678';

9.2刷新列表设置

96f8125a4c422500598edd7272abd727.png

刷新列表设置用于获取Destoon模块的分类内容,各个模块的设置是一致的,但是需要修改其中的moduleid参数。

十、小结

对于有PHP基础的用户,可以直接修改spider.php接口代码,然后配合采集器发送的数据,实现更多内容的入库。

网站起步阶段,适量采集,并非有500G的空间就可以采集500G的数据,以免CPU和内存配置不匹配导致站点运行卡顿。

采集是一把双刃剑,在带来便利的同时也面临被搜索引擎惩罚或版权纠纷的风险,请慎用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值