python分布式服务系统框架_Cola：一个分布式爬虫框架 - 系统架构 - Python4cn(news, jobs)...

最新推荐文章于 2024-06-23 16:01:36 发布

Purkialo

最新推荐文章于 2024-06-23 16:01:36 发布

阅读量365

点赞数

文章标签： python分布式服务系统框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29887021/article/details/113506891

版权

由于早先写的WeiboCrawler问题很多，而且当时我有提到，其实可以实现一个通用的爬虫框架。最近由于要抓取新的数据，于是我就写了这个cola。下面的文字来自wiki。

Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

依赖

由于Cola配置文件使用的yaml，所以Cola只依赖于pyyaml，安装easy_install或者pip工具后，则可以：

pip install pyyaml

安装

下载或者用git clone源码，假设在目录/to/pth/cola，将该路径添加到Python path中。

一种简单的方法是在site-packages中添加pth文件。site-packages因系统而异，如果是windows，假设python装在C:\python27，那么就是C:\python27\Lib\site-packages；如果是linux，那么应该是/usr/local/lib/pythonX.X/dist-packages。

在site-packages下新建一个cola.pth文件，里面写上路径：/to/path/cola。

运行

Cola集群需要一个master和若干个worker，对于每台机器，只能启动一个worker。但是，集群不是必须的，在单机模式下亦可以运行。

Cola目前自带了两个爬虫，分别是维基百科和新浪微博。在项目根目录下的contrib中。

下面就wiki为例，分别说明如何在单机和分布式环境下运行。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python分布式服务系统框架_Cola：一个分布式爬虫框架 - 系统架构 - Python4cn(news, jobs)...

由于早先写的WeiboCrawler问题很多，而且当时我有提到，其实可以实现一个通用的爬虫框架。最近由于要抓取新的数据，于是我就写了这个cola。下面的文字来自wiki。Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。依赖由于Cola配置文件使用的yaml，所以Cola只依赖于pyyaml，安装easy_i...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。