实验对象:scrapinghubs
实验目的:通过体验爬虫工具,进一步加深对数据检索的认识
目录
- scrapinghubs简介
- scrapy cloud试用报告
- 在Scrapyinghub创建工程
- 本地配置并连接到Scrapinghub
- 使用scrapy cloud进行数据爬取
- portia试用报告
- 新建portia工程
- 选择爬取实体
- 导入scrapy cloud
- 总结
1.Scrapinghub简介
![img_cef3cd23d3d1362e40cd86cc1f3bdbfb.png](https://i-blog.csdnimg.cn/blog_migrate/94b9b4a3aee0c53620cbf2cdb12ddb73.png)
*简介
scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。
* 以规模爬取网站
Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。
*数据即服务
scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。
scrapinghub的产品:
![img_0e227b37e116dd1814e17da2f09d5cac.png](https://i-blog.csdnimg.cn/blog_migrate/2fd7cb5c8c460080050d9714d90fe484.png)
竞争对手:
![img_a69448162e80d3c2fe8d8395ea11cd3b.png](https://i-blog.csdnimg.cn/blog_migrate/1907da851794c876c55ad072883e263f.png)
2. scrapy cloud试用报告
2.1在Scrapinghub创建工程
登陆scrapinghub
scrapinghub支持google+账号登陆和Github账号登陆。
![img_94f614ab774290b1f25f22cdd9743002.png](https://i-blog.csdnimg.cn/blog_migrate/6d3400556ce07e570aa2f45a7b58a86f.png)
创建一个工程
![img_f0f0f51fb994f2499272d0f3aa213293.png](https://i-blog.csdnimg.cn/blog_migrate/169169e3480341177fb9767daf699a68.png)
![img_2a1984691408fd19e2542025cc573d03.png](https://i-blog.csdnimg.cn/blog_migrate/9552fdc4f4f1ae72c3ebd942080cfb33.png)
记录Api Key 和 project ID
![img_3610027aa0a602b4482455766e24f9e7.png](https://i-blog.csdnimg.cn/blog_migrate/be2687fdeff0a5e6050027676ef7d898.png)
2.2 本地配置并连接到scrapinghub
安装shub
pip install shub
![img_1767707b4ad35288e7e07cd9dbeeb3e8.png](https://i-blog.csdnimg.cn/blog_migrate/3c71157e2fdf190afdd0fbb0b08bc942.png)
shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。
登陆shub
进入要上传到cloud 的工程目录后,登陆shub并输入api key
shub login
![img_a71300aff2e48c9e78abd82d54341f7a.png](https://i-blog.csdnimg.cn/blog_migrate/b03d85ccb0177e02a625a6883a4e5bfe.png)
上传工程并输入project ID
shub deploy
![img_8c6e892cbe19a7fd16963c1520120bb0.png](https://i-blog.csdnimg.cn/blog_migrate/c97a4dd6279dcc2d0613d18df83c4636.png)
![img_aeda36a50e6eb51fcd49e42125ab6429.png](https://i-blog.csdnimg.cn/blog_migrate/3ea3c5bc41bc0c1dbf35c79a9dfcca20.png)
2.3 使用scrapy cloud进行数据爬取
上传成功
![img_78c604d7d69e81178b41c954f87aae7f.png](https://i-blog.csdnimg.cn/blog_migrate/591ff4603eb8474179b60146963b492f.png)
选取一个爬虫并执行
![img_e36dbea2e67b6e307514654e2f6c9e40.png](https://i-blog.csdnimg.cn/blog_migrate/005e74f79ef4bd459e05fa80a12f6dfb.png)
![img_b9b7d05d8ae840ff6294882db3c2a720.png](https://i-blog.csdnimg.cn/blog_migrate/c1c74b0d79ea5e19e6def6d5bec60742.png)
执行结果
![img_7b249f191986d2389b1f419085332da9.png](https://i-blog.csdnimg.cn/blog_migrate/d8c9b8c0a3836f11711c4c4af777ce6c.png)
点击items requests log等可以查看爬取详细信息
![img_aac6fc7cb1205adc7e41ac38d94c39be.png](https://i-blog.csdnimg.cn/blog_migrate/8a598aa3b6ed05a362f4700fee25d0f1.png)
设置爬取时间间隔
![img_950a1c243a50633f701c5e928711fc72.png](https://i-blog.csdnimg.cn/blog_migrate/41d57ab690cd87d67cf4fe865862d17f.png)
存储到数据库
![img_60393b338cdf6c93d8f60f2c70671cca.png](https://i-blog.csdnimg.cn/blog_migrate/58e4565394160c4567cc09e19fd5fc35.png)
![img_1ee09be7cf880f98d80e58c9b88cbf66.png](https://i-blog.csdnimg.cn/blog_migrate/423c14908ece6a0a21be4baea3e07cc5.png)
3.portia试用报告
-
新建portia工程
输入新建爬虫的名字
输入爬取的网址并打开
-
选择爬取实体
通过点击按钮选取页面中需要爬取的实体
-
导入scrapy cloud
可以选择导出代码或导入scrapy cloud
4. 总结
在scrapinghub的试用过程中,我得出了以下感悟:
- scrapy cloud是一款很方便易用的云端数据爬取工具,可以直观看出数据爬取的相关信息,并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔,以及配置文件等。
- pordia 可以节省手写代码的时间,但是不适合复杂的数据采集
- 高级功能还是需要付费才能使用的