目录
1、功能说明
@distributed(Julia 0.6之前用@parallel)会立即把要做的工作平均分配给所有的workers。注意,在@distributed中,会在指定范围在根据所有的worker的个数分片。相比之下,pmap将启动每个worker的工作,并根据worker的计算能力分配工作任务。一旦一个worker完成了一项工作,它将提供下一个可用的工作。它类似于python中常见的基于队列的多处理。因此,与其说这是一个“重新分配”工作的问题,不如说是只在正确的时间将工作分配给正确的人。
2、代码用例
下面有个例子,应该可以说明了这一点。在这个有点low的例子中,我们有两个worker,一个是慢的,另一个是快两倍的。理想情况下,我们希望给快速工作者两倍于慢速工作者的工作量。(或者,更现实地说,我们的工作有快有慢,但原则是完全相同的)。pmap可以完成这个任务,但是@distributed不行。
#初始化测试函数,定义成广播模块
addprocs(2)
@everywhere begin
function parallel_func(idx)
workernum = myid() - 1
sleep(workernum)
println("job $idx")
end
end
2.1 使用 @distributed
代码工作很顺畅。workers平分了计算量。注意,每个worker都完成了6个工作,尽管worker2的速度是worker3的两倍。结果没有问题,但效率很低。
@distributed for idx = 1:12
parallel_func(idx)
end
# From worker 2: job 1
# From worker 3: job 7
# From worker 2: job 2
# From worker 2: job 3
# From worker 3: job 8
# From worker 2: job 4
# From worker 2: job 5
# From worker 3: job 9
# From worker 2: job 6
# From worker 3: job 10
# From worker 3: job 11
# From worker 3: job 12
2.2 使用pmap
现在,请注意,worker2执行了8个作业,worker3执行了4个作业。这与他们的速度,以及我们想要的最佳效率成正比。pmap是一个很难掌握的任务管理工具,还要根据开发人员的能力量力而为。
pmap(parallel_func, 1:12)
# From worker 2: job 2
# From worker 3: job 1
# From worker 2: job 3
# From worker 2: job 5
# From worker 3: job 4
# From worker 2: job 6
# From worker 2: job 8
# From worker 3: job 7
# From worker 2: job 9
# From worker 2: job 11
# From worker 3: job 10
# From worker 2: job 12
3、总结
因此,Julia文档中的建议是有意义的。如果您有一些小的简单作业,那么使用@parallel的这些问题很可能不会导致问题。不过,对于更大或更复杂的工作,pmap具有优势。