Scrapinghub试用报告

最新推荐文章于 2024-08-12 22:49:39 发布

weixin_34380948

最新推荐文章于 2024-08-12 22:49:39 发布

阅读量158

点赞数

文章标签： python 爬虫数据库

原文链接：https://yq.aliyun.com/articles/656574

版权

实验对象：scrapinghubs
实验目的：通过体验爬虫工具，进一步加深对数据检索的认识

目录

scrapinghubs简介
scrapy cloud试用报告

在Scrapyinghub创建工程
本地配置并连接到Scrapinghub
使用scrapy cloud进行数据爬取

portia试用报告

新建portia工程
选择爬取实体
导入scrapy cloud

总结

1.Scrapinghub简介

scrapinghub首页

*简介

scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。

* 以规模爬取网站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台，可以方便人们轻松部署抓取工具并按需扩展，无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件，例如** protia **使用户无需编写代码，用点击的方式就可以扩展爬虫蜘蛛。其中，Crawlera可以帮助用户绕过反爬虫措施，从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中，并且可以使用api在应用程序中使用这些数据。

*数据即服务

scrapinghub还有许多网页爬取专家帮助用户爬取数据，用户可以即时访问所需的数据，解决复杂的爬网问题，并且节省时间和金钱。

scrapinghub的产品：

产品

竞争对手：

竞争者

2. scrapy cloud试用报告

2.1在Scrapinghub创建工程

登陆scrapinghub

scrapinghub支持google+账号登陆和Github账号登陆。

welcome

创建一个工程

create project

create

记录Api Key 和 project ID

2.2 本地配置并连接到scrapinghub

安装shub

pip install shub

shub install

shub是Scrapinghub命令行客户端。它允许您部署项目或依赖关系，计划蜘蛛，并检索刮取的数据或日志，而不用离开命令行。

登陆shub

进入要上传到cloud 的工程目录后，登陆shub并输入api key

shub login

login

上传工程并输入project ID

shub deploy

shub deploy

2.3 使用scrapy cloud进行数据爬取

上传成功

选取一个爬虫并执行

run

执行结果

点击items requests log等可以查看爬取详细信息

结果

设置爬取时间间隔

存储到数据库

database

3.portia试用报告

新建portia工程
输入新建爬虫的名字

输入爬取的网址并打开
选择爬取实体
通过点击按钮选取页面中需要爬取的实体
导入scrapy cloud
可以选择导出代码或导入scrapy cloud

4. 总结

在scrapinghub的试用过程中，我得出了以下感悟：

scrapy cloud是一款很方便易用的云端数据爬取工具，可以直观看出数据爬取的相关信息，并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔，以及配置文件等。
pordia 可以节省手写代码的时间，但是不适合复杂的数据采集
高级功能还是需要付费才能使用的

weixin_34380948

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapinghub试用报告

实验对象：scrapinghubs实验目的：通过体验爬虫工具，进一步加深对数据检索的认识目录scrapinghubs简介scrapy cloud试用报告在Scrapyinghub创建工程本地配置并连接到Scrapinghub使用scrapy cloud进行数据爬取portia试用报告...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。