生产者 消费者模式

生产者 消费者模式

开发中的生产者和消费者模式 和生活中的生产者消费者 类似

都是一种生产消费关系 生产者产出 供给给消费者使用

在实际的软件开发过程中,经常会碰到如下场景:某个模块负责产生数据,这些数据由另一个模块来负责处理(此处的模块是广义的,可以是类、函数、线程、进程等)。产生数据的模块,就形象地称为生产者;而处理数据的模块,就称为消费者。

单单抽象出生产者和消费者,还够不上是生产者/消费者模式。该模式还需要有一个缓冲区处于生产者和消费者之间,作为一个中介。生产者把数据放入缓冲区,而消费者从缓冲区取出数据。大概的结构如下图。

img

缓冲区作用

解 耦

假设生产者和消费者分别是两个类。如果让生产者直接调用消费者的某个方法,那么生产者对于消费者就会产生依赖(也就是耦合)。将来如果消费者的代码发生变化,可能会影响到生产者。而如果两者都依赖于某个缓冲区,两者之间不直接依赖,耦合也就相应降低了。

支持并发

生产者直接调用消费者的某个方法,还有另一个弊端。由于函数调用是同步的(或者叫阻塞的),在消费者的方法没有返回之前,生产者只好一直等在那边。万一消费者处理数据很慢,生产者就会白白糟蹋大好时光。使用了生产者/消费者模式之后,生产者和消费者可以是两个独立的并发主体(常见并发类型有进程和线程两种,后面的帖子会讲两种并发类型下的应用)。生产者把制造出来的数据往缓冲区一丢,就可以再去生产下一个数据。基本上不用依赖消费者的处理速度。其实当初这个模式,主要就是用来处理并发问题的。

在使用中我们通常用 一个队列来作为缓冲区 生产者将数据放在队列中 消费者从队列中取出数据

上一个例子

这是爬取某个网站图片 的爬虫代码 使用的是生产者消费者模式

import threading
import requests
from lxml import etree
from queue import Queue
import re
import os
from urllib import request

headers = {
	"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
}

# 生产者  获取图片链接 放入队列中 
class Producer(threading.Thread):


	def __init__(self,page_queue,image_quque,*args,**kwargs):
		super(Producer, self).__init__()
		self.page_queue = page_queue
		self.image_quque = image_quque

	def run(self):
		while True:
			# 判断队列是否为空 为空返回真   .empty
			if self.page_queue.empty():
				break

			else:
				# 取出队列中的page链接
				url = self.page_queue.get()
				# 调用  parse获取图片链接
				self.parse_page(url)


	def parse_page(self,url):
		response = requests.get(url,headers=headers)
		text = response.text
		html = etree.HTML(text)
		imgs = html.xpath('//div[@class="page-content text-center"]//img')
		for img in imgs:
			img_url = img.get('data-original')
			alt = img.get('alt')
			# print(type(alt))
			alt = re.sub(r'[\??\.,。!!\/]','',alt)


			suffix = os.path.splitext(img_url)[1]
			filename = alt+suffix
			# 判断图片队列是否满   没有满就继续放入
			if not self.image_quque.full():
				self.image_quque.put((filename,img_url))

# 消费者   从队列中拿出链接  获取图片保存 
class Consumer(threading.Thread):
	def __init__(self,page_queue,img_queue,*args,**kwargs):
		super(Consumer, self).__init__()
		self.page_queue = page_queue
		self.img_queue = img_queue

	def run(self):
		while True:
			if self.page_queue.empty() and self.img_queue().empty():
				break

			filenama,img_url = self.img_queue.get()
			request.urlretrieve(img_url,'sources/'+filenama)
			print(filenama,'下载完成')

def main():
	page_queue = Queue(100)
	image_queue = Queue(1000)
	for x in range(1, 101):
		url = 'http://www.doutula.com/photo/list/?page=%d' % x
		# 将需要爬取的页面都放入queue队列
		page_queue.put(url)

	# 创建生产者进程
	for i in range(5):
		p1 = Producer(page_queue, image_queue)
		p1.start()

	# 创建消费者进程
	for i in range(5):
		c1 = Consumer(page_queue,image_queue)
		c1.start()


if __name__ == '__main__':
	main()
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值