分布式进程在Python中依然要用到multiprocessing模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。
举个例子:在做爬虫程序时,常常会遇到这样的场景,我们想抓取某个网站的所有图片,如果使用多进程的话,一般是一个进程负责抓取图片的链接地址,将链接地址存放到Queue中,另外的进程负责从Queue中读取链接地址进行下载和存储到本地。
现在把这个过程做成分布式,一台机器上的进程负责抓取链接,其他机器上的进程负责下载存储。那么遇到的主要问题是将Queue暴露到网络中,让其他机器进程都可以访问,分布式进程就是将这一个过程进行了封装,我们可以将这个过程称为本地队列的网络化。整体过程如图1-24所示。
▲图1-24 分布式进程
要实现上面例子的功能,创建分布式进程需要分为六个步骤:
建立队列Queue,用来进行进程间的通信。服务进程创建任务队列task_queue,用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下,必须通过由Queuemanager获得的Queue接口来添加任务。
把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像。
建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令。
启动第三步中建立的实例,即启动管理manager,监管信息通道。
通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列。
创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。
接下来通过程序实现上面的例子(Linux版),首先编写的是服务进程(taskManager.py),代码如下:
任务进程已经编写完成,接下来编写任务进程(taskWorker.py),创建任务进程的步骤相对较少,需要四个步骤:
使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来在网络上获取Queue。
连接服务器,端口和验证口令注意保持与服务进程中完全一致。
从网络上获取Queue,进行本地化。
从task队列获取任务,并把结果写入result队列。
程序taskWorker.py代码(win/linux版)如下:
最后开始运行程序,先启动服务进程taskManager.py,运行结果如下:
接着再启动任务进程taskWorker.py,运行结果如下:
当任务进程运行结束后,服务进程运行结果如下:
其实这就是一个简单但真正的分布式计算,把代码稍加改造,启动多个worker,就可以把任务分布到几台甚至几十台机器上,实现大规模的分布式爬虫。
注:由于平台的特性,创建服务进程的代码在Linux和Windows上有一些不同,创建工作进程的代码是一致的。
taskManager.py程序在Windows版下的代码如下:
关于作者:范传辉,资深网虫,Python开发者,参与开发了多项网络应用,在实际开发中积累了丰富的实战经验,并善于总结,贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动开发等技术。
本文摘编自《Python爬虫开发与项目实战》,经出版方授权发布。
《Python爬虫开发与项目实战》
扫码购买
码书商店是CSDN专为我们的用户建立的一个商店,这里提供大量的技术书籍,除了书籍我们也提供生活类的相关产品,如耳机、键盘等,或者你们如果有需求也可以联系码书商店的客服或者在公众号下留言你们需要的产品,我们尽量满足大家需求哦。
作为码书商店的运营人员,诚邀你们进入我们的“CSDN码书福利群”,群里会不定时的给大家赠书书籍、优惠券等,有书籍推荐或者物流方面信息也可群里咨询~目前群已满100人,需要加群的请扫下方二维码添加微信,拉你入群哦~