Python-多个生产者消费者-读写文件

0.前言

从文件中读取内容,分析获得想要的数据,拼接URL发起请求,获取响应数据并保存。
读写文件较快,但是网络请求速度比较慢,但是代码是串联执行的,耦合性较高,为了加快进度,采用生产者[读文件]–队列–消费者(同时是另一个队列的生产者)[网络请求]–队列2–消费者[写文件]模式去获取保存数据。

1.读文件,将想要的数据put到队列

from multiprocessing import JoinableQueue, Process
import time

# 可将for循环改成自己代码要读的文件
def producer(q, name):
    for i in range(200000):
        info = name + ' ' + str(i)
        with open('info.txt', 'a')as f:
            f.write(info+'\n')
            f.flush()
        q.put(info)

2.从对列中取数据并操作,将得到的数据put到新队列

def consumer(q, q_file):
    while True:
        line = q.get()
        if line:
            file_content = 'hello ni hao ' + line + '\n'
            q_file.put(file_content)
        else:
            break
        q.task_done()

3.将数据从对列中取出,保存到文件

有在消费者里面直接写入保存文件,但是有导致部分数据丢失,丢失一行数据或者丢失一行中的一部分数据,没有找到可以解决的办法,尝试重新弄一个队列,看行不行,最后证明可以。有同学有其他办法也阔以在评论里分享哈^_^

def deal_file(q_file):
    while True:
        info = q_file.get()
        if info:
            with open('hello.txt', 'a')as f:
                f.write(info)
                f.flush()  # 多进程写文件注意缓存刷新
        else:
            print(info)
            break
        q_file.task_done()

4.创建进程,执行代码

if __name__ == '__main__':
    t = time.time()
    q = JoinableQueue(10)
    q_file = JoinableQueue(50)
    p_pro = Process(target=producer, args=(q, u'producer'))
    p_con = Process(target=consumer, args=(q, q_file))
    p_con2 = Process(target=consumer, args=(q, q_file))
    p_con3 = Process(target=consumer, args=(q, q_file))
    p_con4 = Process(target=deal_file, args=(q_file,))
    p_pro.start()
    p_con.start()
    p_con2.start()
    p_con3.start()
    p_con4.start()
    
    p_pro.join()
    q.join()
    # 有尝试在这里做消费者的join等待,因为有q_file队列的put,但是好像是造成了等待死锁,取消掉也没有出现问题
    # p_con.join()
    # p_con2.join()
    # p_con3.join()
    q_file.join()
   

    q.put(None)
    q.put(None)
    q.put(None)
    q_file.put(None)
    
    print(time.time() - t)

注意点:

1.flush()

重点,在多进程中写文件需要尽快刷新,否则可能会导致数据丢失

https://www.cnblogs.com/mahailuo/p/11460739.html

2.q.put(None)

表示对列已经为空,结束进程,有几个消费者进程就应该put几个None,否则一个消费者已经获取了None,但是其他消费者在等待,会造成死锁,程序不能结束

https://www.cnblogs.com/mike-liu/p/9279313.html

3.q.join()

对列q.join(),等消费者把对列的数据取空之后(所有的消费者执行了q.task_done()),join等待才会结束

https://www.cnblogs.com/mike-liu/p/9279313.html

4.死锁

有尝试在取对列数据时加锁+释放锁,但是这个代码里出现了错误,“RuntimeError: release unlocked lock”,没有解决。我是将消费者的join()等待注释掉了就可以了。有清楚的同学也可以在下面评论吼吼。

https://www.cnblogs.com/dplearning/p/6947213.html
http://www.cocoachina.com/articles/477979

完整代码

from multiprocessing import JoinableQueue, Process
import time


def deal_file(q_file):
    while True:
        info = q_file.get()
        if info:
            with open('hello.txt', 'a')as f:
                f.write(info)
                f.flush()
        else:
            print(info)
            break
        q_file.task_done()

def producer(q, name):
    for i in range(200000):
        info = name + ' ' + str(i)
        with open('info.txt', 'a')as f:
            f.write(info+'\n')
            f.flush()
        q.put(info)

def consumer(q, q_file):
    while True:
        line = q.get()
        if line:
            file_content = 'hello ni hao ' + line + '\n'
            q_file.put(file_content)
        else:
            break
        q.task_done()


if __name__ == '__main__':
    t = time.time()
    q = JoinableQueue(10)
    q_file = JoinableQueue(50)
    p_pro = Process(target=producer, args=(q, u'producer'))
    p_con = Process(target=consumer, args=(q, q_file))
    p_con2 = Process(target=consumer, args=(q, q_file))
    p_con3 = Process(target=consumer, args=(q, q_file))
    p_con4 = Process(target=deal_file, args=(q_file,))
    p_pro.start()
    p_con.start()
    p_con2.start()
    p_con3.start()
    p_con4.start()

    p_pro.join()
    q.join()
    q_file.join()

    q.put(None)
    q.put(None)
    q.put(None)
    q_file.put(None)

    print(time.time() - t)
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
生产者-消费者模式是一种经典的多线程模式,其中一个或多个生产者生成数据并将其放入缓冲区,而一个或多个消费者从缓冲区中读取数据并进行处理。下面是一个使用Python实现的生产者-消费者模式的简单例子: ```python import threading import queue import time # 定义一个缓冲区 buffer = queue.Queue(maxsize=10) # 生产者线程函数 def producer(): while True: # 生产一个数据 data = time.time() # 将数据放入缓冲区 buffer.put(data) print("Producer: produced item %s" % data) # 等待一段时间 time.sleep(1) # 消费者线程函数 def consumer(): while True: # 从缓冲区中取出一个数据 data = buffer.get() print("Consumer: consumed item %s" % data) # 处理数据 # ... # 通知缓冲区数据已经被处理 buffer.task_done() # 创建生产者和消费者线程 producer_thread = threading.Thread(target=producer) consumer_thread = threading.Thread(target=consumer) # 启动线程 producer_thread.start() consumer_thread.start() # 等待所有线程结束 producer_thread.join() consumer_thread.join() ``` 在这个例子中,我们使用了Python内置的`queue`模块来实现缓冲区。首先,我们创建了一个`Queue`对象作为缓冲区,并设置了最大容量为10。然后,我们定义了生产者和消费者线程函数,分别用于生成数据和处理数据。在生产者线程中,我们使用`put`方法将数据放入缓冲区。在消费者线程中,我们使用`get`方法从缓冲区中取出数据,并使用`task_done`方法通知缓冲区数据已经被处理。 最后,我们创建生产者和消费者线程,并启动它们。在主线程中,我们使用`join`方法等待所有线程结束。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值