概览
MATLAB Coder将parfor循环中的变量分类为下表中的类别之一。它不支持无法分类的变量。如果parfor循环包含不能唯一分类的变量,或者变量违反了其类别限制,则parfor循环将生成一个错误。
分类 | 描述 |
---|---|
循环 | 作为数组的循环索引 |
切片 | 一种数组,其分段由循环的不同迭代操作 |
广播 | 在循环之前定义的变量,其值在循环内部使用,但不在循环内部赋值 |
简约 | 不考虑迭代顺序,在循环的迭代中累加一个值 |
临时 | 在循环内部创建的变量,但与切片或还原变量不同,在循环外部不可用 |
以下代码片段展示了这几种变量
a=0;
c=pi;
z=0;
r=rand(1,10);
parfor i=1:10
a=i; % 'a'是一个临时变量
z=z+i; % 'z' 是一个简约变量
b(i)=r(i); % 'b' 是一个切片输出变量
% 'r' 是一个切片输入变量
if i<=c % 'c' 是一个广播变量
d=2*a; % 'd' 是一个临时变量
end
end
一、切片变量
切片变量的值可以被分割成段或片,然后由不同的线程分别操作。循环的每次迭代都在数组的不同切片上工作。
parfor循环中的变量如果具有以下特征,则被切片:
-
第一级索引的类型——第一级索引是圆括号,()
例:左边的变量A没有被切片,右边变量A切片 A.q(i,12) A(i,12).q
-
固定索引列表——在第一级括号内,对于给定变量的所有出现,索引列表都是相同的
例:左边的变量B没有被切片,因为B在不同的位置被i和i+1索引;右边变量B被切片 parfor i = 1:10 parfor i = 1:10 B(i) = B(i+1) + 1; B(i+1) = B(i+1) + 1; end end
-
索引的形式——在变量的索引列表中,只有一个索引涉及循环变量
在切片变量的索引列表中,一个索引的形式为i, i+k, i-k, k+i或k-i。当使用其他变量和循环变量一起索引数组时,不能在循环中设置 这些变量。这些变量在整个parfor语句的执行过程中都是不变的。不能将循环变量与其本身组合起来形成索引表达式。 在下面的例子中,i是循环变量,j和k是非索引变量: A(i+f(k),j,:,3) A(i+k,j,:,3) A(i,20:30,end) A(i,:,end) A(i,:,s.field1) A(i,:,k)
-
数组的形状——在给切片变量赋值时,赋值的右边不是[ ]或’ '(这些操作符表示删除元素)。
切片变量必须保持恒定的形状。在下面的例子中,变量A没有被切片: A(i,:) = []; A(end + 1) = i;
注意:
- parfor中可能需要读取或写入parfor之外的矩阵,读取写入位置与循环变量相关。这样就需要向worker传输大量的数据。
- 矩阵如果被Matlab识别为切片变量,则数据可以分段传输到各worker,提高传输效率。
- 切片变量矩阵的大小是不可在parfor中改变的,且为了保证Matlab识别正确,每次循环中只能读取由同一个索引值索引的切片,如
a[i] a[i+1]
同时出现则a不被识别为切片变量。
二、广播变量
- 在parfor之前赋值,在parfor内只进行读取操作。
三、简约变量
-
一般parfor中各次循环对应的运算应该相互独立,但简约操作可以在多次循环内同时对一个变量操作。这种变量称为简约变量。例如下方代码中a就是简约变量。
a = 0;for i = 1:1000 a = a+i;end
-
简约操作包括
+ - * .* & | [,] [;] {,} {;} min max union intersect
。 -
同一个parfor循环对简约变量的操作必须一致,即必须是同一种简约操作符。而且与操作符的相对位置也必须一致。
-
简约变量赋值表达式应该满足结合律和交换律。
* [] {}
底层有特殊处理保证结果的正确性。
四、循环变量
- 如上例中的i,表示当前循环的id。
五、临时变量
- 作用域局限于parfor内,parfor结束后不存在。不影响parfor之前声明的同名变量。
并行池配置及注意事项
- 在运行程序之前,需要配置worker。否则如前文所说,parfor循环将以普通for循环的形式运行,无法并行。
单机配置
- 使用matlabpool命令可以开启关闭本机的并行计算池。
matlabpool n
命令可以打开n个worker。matlabpool open configname
按照指定配置打开,默认配置为local
。- 程序运行结束后,应该使用
matlabpool close
关闭worker。 - 配置项的修改可以通过
Parallel -> Manage Cluster Profile
完成。 - n的选择:如果有c个cpu核心,通常可以设置为c。如果是远程服务器,为防止服务器响应卡顿,可以设置为
c-1
。对于计算密集型程序,超线程带来的性能提升几乎为0,可以设置为核心数,而不是线程数。
- 循环次数n最好能整除以worker个数m,否则部分worker会分配较多的循环,造成一部分worker闲置一段时间,降低了并行性。
- 并行运行时各个worker之间会进行通信,要注意大量数据传输带来的性能下降。尤其对于广播变量,如果较大可尝试变为切片变量。