启动一个进程会有很小的开销(50ms+取决于数据大小),因此通常最好尽可能多地使用最大的代码块。从您的评论看来,t的每个循环都是独立的,因此我们应该可以自由地并行化它。在
当python创建一个新进程时,您将获得主进程的一个副本,这样您就可以使用所有全局数据,但是当每个进程写入数据时,它会写入自己的本地副本。这意味着dist[i,p]将不可用于主进程,除非您显式地用一个return返回它(这将有一些开销)。在您的情况下,如果每个进程将dist[i,p]写入一个文件,那么您应该没问题,只是不要尝试写入同一个文件,除非您实现了某种类型的互斥访问控制。在#!/usr/bin/python
import time
import multiprocessing as mp
import numpy as np
data_Y = 11 #11000
data_I = 90 #90000
dist_n = 100
nrm = np.linspace(1,10,dist_n)
I = np.random.randn(data_I, 1000)
Y = np.random.randn(data_Y, 1000)
dist = np.zeros((data_I, dist_n))
def worker(t):
st = time.time()
for i in range(data_I):
d = np.abs(I[i] - Y[t])
for p in range(dist_n):
dist[i,p] = np.sum(d**nrm[p])/nrm[p]