python queue windows_想用Python爬小姐姐图片?那你得先搞定分布式进程

原标题:想用Python爬小姐姐图片?那你得先搞定分布式进程

导读:分布式进程指的是将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。

作者:范传辉

如需转载请联系大数据(ID:hzdashuju)

分布式进程在Python中依然要用到multiprocessing模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。

举个例子:在做爬虫程序时,常常会遇到这样的场景,我们想抓取某个网站的所有图片,如果使用多进程的话,一般是一个进程负责抓取图片的链接地址,将链接地址存放到Queue中,另外的进程负责从Queue中读取链接地址进行下载和存储到本地。

现在把这个过程做成分布式,一台机器上的进程负责抓取链接,其他机器上的进程负责下载存储。那么遇到的主要问题是将Queue暴露到网络中,让其他机器进程都可以访问,分布式进程就是将这一个过程进行了封装,我们可以将这个过程称为本地队列的网络化。整体过程如图1-24所示。

▲图1-24 分布式进程

要实现上面例子的功能,创建分布式进程需要分为六个步骤:

建立队列Queue,用来进行进程间的通信。服务进程创建任务队列task_queue,用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下,必须通过由Queuemanager获得的Queue接口来添加任务。

把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像。

建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令。

启动第三步中建立的实例,即启动管理manager,监管信息通道。

通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列。

创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。

接下来通过程序实现上面的例子(Linux版),首先编写的是服务进程(taskManager.py),代码如下:

importrandom,time,Queue

frommultiprocessing.managers importBaseManager

# 第一步:建立task_queue和result_queue,用来存放任务和结果

task_queue=Queue.Queue

result_queue=Queue.Queue

classQueuemanager(BaseManager):

pass

# 第二步:把创建的两个队列注册在网络上,利用register方法,callable参数关联了Queue对象,

# 将Queue对象在网络中暴露

Queuemanager.register( 'get_task_queue',callable= lambda:task_queue)

Queuemanager.register( 'get_result_queue',callable= lambda:result_queue)

# 第三步:绑定端口8001,设置验证口令‘qiye’。这个相当于对象的初始化

manager=Queuemanager(address=( '', 8001),authkey= 'qiye')

# 第四步:启动管理,监听信息通道

manager.start

# 第五步:通过管理实例的方法获得通过网络访问的Queue对象

task=manager.get_task_queue

result=manager.get_result_queue

# 第六步:添加任务

forurl in[ "ImageUrl_"+i fori inrange( 10)]:

print'put task %s ...'%url

task.put(url)

# 获取返回结果

print'try get result...'

fori inrange( 10):

print'result is %s'%result.get(timeout= 10)

# 关闭管理

manager.shutdown

任务进程已经编写完成,接下来编写任务进程(taskWorker.py),创建任务进程的步骤相对较少,需要四个步骤:

使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来在网络上获取Queue。

连接服务器,端口和验证口令注意保持与服务进程中完全一致。

从网络上获取Queue,进行本地化。

从task队列获取任务,并把结果写入result队列。

程序taskWorker.py代码(win/linux版)如下:

# coding:utf-8

importtime

frommultiprocessing.managers importBaseManager

# 创建类似的QueueManager:

classQueueManager(BaseManager):

pass

# 第一步:使用QueueManager注册用于获取Queue的方法名称

QueueManager.register( 'get_task_queue')

QueueManager.register( 'get_result_queue')

# 第二步:连接到服务器:

server_addr = '127.0.0.1'

print( 'Connect to server %s...'% server_addr)

# 端口和验证口令注意保持与服务进程完全一致:

m = QueueManager(address=(server_addr, 8001), authkey= 'qiye')

# 从网络连接:

m.connect

# 第三步:获取Queue的对象:

task = m.get_task_queue

result = m.get_result_queue

# 第四步:从task队列获取任务,并把结果写入result队列:

while( nottask.empty):

image_url = task.get( True,timeout= 5)

print( 'run task download %s...'% image_url)

time.sleep( 1)

result.put( '%s--->success'%image_url)

# 处理结束:

print( 'worker exit.')

最后开始运行程序,先启动服务进程taskManager.py,运行结果如下:

put task ImageUrl_0 ...

put task ImageUrl_1 ...

put task ImageUrl_2 ...

put task ImageUrl_3 ...

put task ImageUrl_4 ...

put task ImageUrl_5 ...

put task ImageUrl_6 ...

put task ImageUrl_7 ...

put task ImageUrl_8 ...

put task ImageUrl_9 ...

try get result...

接着再启动任务进程taskWorker.py,运行结果如下:

Connect to server 127.0.0.1...

run task download ImageUrl_0...

run task download ImageUrl_1...

run task download ImageUrl_2...

run task download ImageUrl_3...

run task download ImageUrl_4...

run task download ImageUrl_5...

run task download ImageUrl_6...

run task download ImageUrl_7...

run task download ImageUrl_8...

run task download ImageUrl_9...

worker exit.

当任务进程运行结束后,服务进程运行结果如下:

result is ImageUrl_0--->success

result is ImageUrl_1--->success

result is ImageUrl_2--->success

result is ImageUrl_3--->success

result is ImageUrl_4--->success

result is ImageUrl_5--->success

result is ImageUrl_6--->success

result is ImageUrl_7--->success

result is ImageUrl_8--->success

result is ImageUrl_9--->success

其实这就是一个简单但真正的分布式计算,把代码稍加改造,启动多个worker,就可以把任务分布到几台甚至几十台机器上,实现大规模的分布式爬虫。

注:由于平台的特性,创建服务进程的代码在Linux和Windows上有一些不同,创建工作进程的代码是一致的。

taskManager.py程序在Windows版下的代码如下:

# coding:utf-8

# taskManager.py for windows

importQueue

frommultiprocessing.managers importBaseManager

frommultiprocessing importfreeze_support

# 任务个数

task_number = 10

# 定义收发队列

task_queue = Queue.Queue(task_number);

result_queue = Queue.Queue(task_number);

defget_task:

returntask_queue

defget_result:

returnresult_queue

# 创建类似的QueueManager:

classQueueManager(BaseManager):

pass

defwin_run:

# Windows下绑定调用接口不能使用lambda,所以只能先定义函数再绑定

QueueManager.register( 'get_task_queue',callable = get_task)

QueueManager.register( 'get_result_queue',callable = get_result)

# 绑定端口并设置验证口令,Windows下需要填写IP地址,Linux下不填默认为本地

manager = QueueManager(address = ( '127.0.0.1', 8001),authkey = 'qiye')

# 启动

manager.start

try:

# 通过网络获取任务队列和结果队列

task = manager.get_task_queue

result = manager.get_result_queue

# 添加任务

forurl in[ "ImageUrl_"+str(i) fori inrange( 10)]:

print'put task %s ...'%url

task.put(url)

print'try get result...'

fori inrange( 10):

print'result is %s'%result.get(timeout= 10)

except:

print( 'Manager error')

finally:

# 一定要关闭,否则会报管道未关闭的错误

manager.shutdown

if__name__ == '__main__':

# Windows下多进程可能会有问题,添加这句可以缓解

freeze_support

win_run

关于作者:范传辉,资深网虫,Python开发者,参与开发了多项网络应用,在实际开发中积累了丰富的实战经验,并善于总结,贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动开发等技术。

本文摘编自《Python爬虫开发与项目实战》,经出版方授权发布。

延伸阅读《Python爬虫开发与项目实战》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:零基础学习爬虫技术,从Python和Web前端基础开始讲起,由浅入深,包含大量案例,实用性强。

据统计,99%的大咖都完成了这个神操作

更多精彩

查看更多优质内容!

PPT|报告|读书|书单|干货

大数据|揭秘|Python|可视化

AI| 人工智能|5G|区块链

机器学习|深度学习|神经网络

1024|段子|数学|高考

猜你想看

Q:你还知道哪些爬虫神技?

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩,请在后台点击“历史文章”查看

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值