安装火蜘蛛采集器，采集天猫新百伦旗舰店商品数据上传到微信

最新推荐文章于 2024-05-05 09:46:07 发布

gf771115

最新推荐文章于 2024-05-05 09:46:07 发布

阅读量1.6k

点赞数

分类专栏： php

php 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

转自：http://blog.csdn.net/xuyaogyo/article/details/40918483

1. 下载火蜘蛛采集器

火蜘蛛采集器下载地址：

http://firespider.duapp.com/FireSpiderWeb/index.html

2.安装

火蜘蛛采集器包含了一个客户端和一个服务端安装包。安装非常方便，一路下一步就可以安装完成。具体安装步骤可以参考它提供的安装手册。

3.启动

启动服务端：在桌面有个快捷方式“Fire Spider Server Startup”，右键-》以管理员身份运行。

启动客户端：双击桌面快捷方式“FireSpider”

4.试用

安装之后默认已经包含了几个采集任务了。打开客户端，如下图所示，选中一个任务后点击“执行采集”。

可以看到采集开始执行了。

如果需要停止采集，选中采集任务，点击“执行采集”按钮旁边的“退出”。

5.建立新百伦任务

安装之后默认已经包含了一个采集骆驼天猫店的任务——“骆驼-列表页”。我们只要参考这个，建一个自己的任务就可以了。比如我要采集 “新百伦旗舰店”，在天猫搜索“新百伦”进入新百伦天猫店，找到新百伦的列表页，链接是这样的：

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

接下来建一个采集新百伦的任务

在浏览器输出 http://localhost:8090/FireSpider/html/index.html 打开管理中心

新建一个任务，除了“任务名称”，“链接”，“数据上传链接”，其实都跟“骆驼-列表页”一样就行了。链接填写刚才的新百伦列表页的链接。

注意“数据上传链接” 字段：这个是采集器在采集到数据的时候，会把数据往这个链接以POST方式推送。因为采集器并不知道我们拿采集到的数据有什么用，只好把数据交给我们自己处理。我们可以在本地开一个REST服务，apache, tomcat, iis什么的都可以。

这里“数据上传链接” 我们填写 “http://localhost/myphp/index.php”，这里我们用的是PHP。待会会讲一个这个PHP脚本。

如果只是体验一下采集，“数据上传链接”也可以留空。

点击保存

6. 搭建WAMP

如果你不需要自己处理采集到的数据，这一步并不是必须的。这里讲的是PHP自定义采集数据处理，其它语言也可以略过。

6.1 安装wamp

这个无需多言，也是一直下一步就可以了。

6.2 建立Alias

输入alias名称

输入alias对应的目录

6.3 index.php脚本

[php]view plaincopy 
   
 <?php  
   
 // 注意PHP文件要保存为UTF-8无BOM格式  
   
 // 取得POST过来的数据  
 // 因为firespider post时没有设置content type,所以要用这种方式取post数据，不能用$_POST  
 $content = file_get_contents("php://input");  
   
 // JSON解码  
 $p = json_decode($content);  
   
 // 后面可以写你自己的逻辑。这里只是保存到一个文件中  
 $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
   
 if(!$james) {  
     echo'file not exist';  
     exit;  
 }  
   
 fwrite($james, $content);  
 fclose($james);