多进程任务中的共享变量问题
做项目的时候遇到需要处理多进程问题,遇到一些坑,记录一下。本文所探讨的问题主要依据multiprocessing这个python库完成。
1、若多个进程间不需要处理共享变量,只涉及到主进程和子进程间的数据交互,则可以使用pipe管道或者quene队列。下面给出一个用pipe管道实现主进程和次进程通信的代码。
import multiprocessing as mp
from multiprocessing import Process
import pymysql
def read(pipe):
conn = pymysql.connect('localhost', user="root", passwd="12345", db="mydb")
cursor = conn.cursor()
sql = "select * from readtable"
cursor.execute(sql)
result=cursor.fetchall()
pipe.send(result)
pipe.close()
cursor.close()
conn.close()
if __name__ == '__main__':
pipe_train1,pipe_train2 = mp.Pipe()
p_train = Process(target=read, args=(pipe_train2))
p_train.start()
p_train.join()
df_train = pipe_train1.recv()
pipe_train1.close()
2、很多时候我们遇到类似的问题:一个数据变量可能需要多个进程一起修改完成。现有的博客中我发现此类问题说的相对较少,这里结合实际遇到的问题重点记录一下。
此类问题适合采用共享变量来完成。multiprocessing这个库提供了Value、Array、Manager方法用来创建共享变量,其中Value和Array通过共享内存的方式共享数据、Manager通过共享进程的方式共享数据。Manager管理的共享数据类型有:Value、Array、dict、list、Lock等等,同时Manager还可以共享类的实例对象。
这里我用Manager().list()来实现一个共享列表,多个进程对列表中的数据进行修改。有两个地方阻碍了我很长时间。首先,由于多个进程可能同时对列表数据进行操作,为解决这个问题需要采用Lock,我看网上很多教程用的是
multiprocessing.Lock()
来创建锁,但是我在使用的时候会报错。后来换成
multiprocessing.Manager().Lock()
可以正常运行。我猜想上一种方法可能是适用于Value和Array方法创建的共享变量,而使用Manager创建的共享变量则要使用后一种方法,具体我并没有去验证。
我所遇到的第二个问题是在子进程中对列表进行操作时,我发现Manager创建的列表的数据类型为listproxy,不能直接对该类型列表中的数据进行修改,我在 https://www.jianshu.com/p/52676b93430d 这篇文章中找到了相关的答案。
同时我发现在取listproxy中的数据时不能像平时取列表中数据那样用a[i][k]这种方法取多维列表的值,需要一层一层的取,不知道有没有更好的方法。
下面给出代码:
import multiprocessing as mp
from multiprocessing import cpu_count
def add_print(num):
with lock:
m=d[0]
m[0]+=1
d[0]=m
print(d)
def setup(t, l):
global d, lock
d = t
lock = l
if __name__ == "__main__":
size=4000
d=mp.Manager().list([[0]*10]*size)
cores = cpu_count()
# 分块个数
partitions = cores
lock = mp.Manager().Lock()
nums = range(5)
pool = mp.Pool(initializer=setup, initargs=[d, lock])
pool.map(add_print, nums)