由于早先写的WeiboCrawler问题很多,而且当时我有提到,其实可以实现一个通用的爬虫框架。最近由于要抓取新的数据,于是我就写了这个cola。下面的文字来自wiki。
Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。
依赖
由于Cola配置文件使用的yaml,所以Cola只依赖于pyyaml,安装easy_install或者pip工具后,则可以:
pip install pyyaml
安装
下载或者用git clone源码,假设在目录/to/pth/cola,将该路径添加到Python path中。
一种简单的方法是在site-packages中添加pth文件。site-packages因系统而异,如果是windows,假设python装在C:\python27,那么就是C:\python27\Lib\site-packages;如果是linux,那么应该是/usr/local/lib/pythonX.X/dist-packages。
在site-packages下新建一个cola.pth文件,里面写上路径:/to/path/cola。
运行
Cola集群需要一个master和若干个worker,对于每台机器,只能启动一个worker。但是,集群不是必须的,在单机模式下亦可以运行。
Cola目前自带了两个爬虫,分别是维基百科和新浪微博。在项目根目录下的contrib中。
下面就wiki为例,分别说明如何在单机和分布式环境下运行。