本篇blog针对两个函数cellfun和arrayfun对程序的加速写一些东西,方便大家调的一手好参数。之前的一篇blog《Matlab并行编程方法》在具体实现时可能有问题(下面会讲),而我查到的对Matlab并行的讲解资料也没有写明这个问题。。。所以这里提一下比较实用的matlab并行加速方法,本篇的出现感谢@王小川_Matlab的热心指点。
1. 为什么上一篇对Matlab并行编程有误解?
故事起源于我上篇blog和在微博里提出的问题:4.2中的解决方案,i.e., matlab用parfor时变量循环少的话怎样负载均衡? 上篇我最后yy出来的解决方案比较扯淡,因为这样并不并行都能这么干。所以这里纠正一下这个问题。
事实上,matlab内置了很多并行,所以再手工去用parfor做任务并行有可能是冗余的甚至无利的。尤其在循环少(比如parfor i = 1:3)或 循环内部计算量小的时候不要用parfor,原因一是parfor控制单核任务并行(parfor i=1:3只分配任务给3个core),用了parfor之后,每个循环内执行的code只分配给一个core会抑制matlab内置负载均衡机制。
2. 解决方案1:createJob
分配任务给特定cluster。
3. 解决方案2:arrayfun & cellfun
3.1 调1个参数
arrayfun Example:
- y = arrayfun(@(alpha) f1(x,k,alpha), alpha,'UniformOutput',false);
其中,x是数据,k是定下来的参数,alpha是待调参数,比如alpha = [1,2,3];
cellfun Example:
- y = cellfun(@(alpha) f1(x,k,alpha), alpha,'UniformOutput',false);
3.2 调两个参数
比如现在有个问题,我要调两个参数:alpha和beta。比较正规的方法是画这么一幅二维图:横坐标alpha,纵坐标beta,(i,j)处的颜色深浅表示取alpha(i),beta(j)时的结果(这个图可以用imagesc作)。而且在取值时也有很多小技巧,比如是均分range取值啦,还是指数分段取值啦etc,这里不详说。
只考虑,当定下来一个备选alpha数组 和 beta数组时, 怎样得到上面这幅图。我们还使用并行的方法。
arrayfun Example:
- Lalpha = length(alpha);
- Lbeta = length(beta);
- alpha = reshape(repmat(alpha,Lbeta,1),1,Lalpha*Lbeta); beta = repmat(beta,1,Lalpha);
- [Dict,AN,~,~,~] = arrayfun(@(alpha,beta) gpnmf(train_s,N_samples,R,RC,alpha,beta,1,1,28),alpha,beta,'UniformOutput',false);
也就是,用repmat把alpha重复Lbeta次,把beta重复Lalpha次。
4. 性能测试
我们用比较耗时的积分函数进行测试:
T.m
- N = 10000;
- tic
- for i = 1:N
- y1 = integral(@(x)1./exp(1+x),0,i);
- end
- toc
- tic
- alpha = 1:N;
- y2 = arrayfun(@(a) integral(@(x) 1./exp(1+x),0,a),alpha);
- toc
结果:
- >> T
- Elapsed time is 16.177388 seconds.
- Elapsed time is 12.904918 seconds.
感兴趣的朋友还可以测试下不同方法的定积分效率:
- times = 20000;
- tic;
- for t = 1:times
- r1(t) =quadl(@(x) x+1,1,t);
- end
- toc;
- tic
- r2 = arrayfun(@(t) Plusx(1,t),1:times);
- toc;
- tic
- r3 = arrayfun(@(t) quadl(@(x) x+1,1,t), 1:times);
- toc;
Plusx.m:
- function [ t ] = Plusx(x,t)
- %PLUSx Summary of this function goes here
- % Detailed explanation goes here
- t =quadl(@(m) m+x,1,t);
- end