分布式网络爬虫框架Cola介绍
这个分布式网络爬虫框架设计思想来源于: https://github.com/chineking/cola/wiki
下面给出框架设计图:
说明:
在Cola集群里,当一个任务被提交的时候,Cola Master和Worker会分别启动JobMaster和JobWorker。对于一个Cola Job,当JobWorker启动完成后,会通知JobMaster,JobMaster等待所有JobWorker启动完成后开始运行Job。在一个Cola Job启动时,会启动一个消息队列(Message Queue,主要操作是put和get,worker抓取到的对象会被put到队列中,而要抓取新的对象时,只要从队列中取即可),每个JobWorker上都存在消息队列节点,同时会有一个去重模块(bloom filter实现)。
代码位置: https://github.com/chineking/cola/wiki