Matlab并行运算

Matlab并行运算

目前,新购置的电脑大部分都是多核的了,使用Matlab进行大量计算时如何有效利用多核呢?Matlab目前版本已经比较好的支持多核并行运算了。是用的Matlab版本是R2007b。电脑是双核的。


先简单试试:

>> matlabpool local 2
Submitted parallel job to the scheduler, waiting for it to start.
Connected to a matlabpool session with 2 labs.

显示正在进行多核配置,然后,提示连接到2个“实验室”(labs)。我这也理解的:本地虚拟出2台可以运行matlab的工作站,这样用分布式计算工具箱可以进行并行计算(matlabpool这个命令好像是在并行计算工具箱里的)。

>> testParallel
Elapsed time is 7.750534 seconds.

这里运行testParallel函数,已经开辟了2个labs,为了进行多核并行运算,testParallel中,要用parfor代替原来的for循环。

在运行这个时,观察windows任务管理器,可以发现一共有3个MATLAB.exe进程。其中一个占内存较多的,应该是主控的,他基本不干活,只负责分配,进行计算时他的cpu占用率只有1~2%,剩下两个进程专门用来计算的,跑起来各占cpu 49%左右。看上去还是每个matlab进程单核运算,但是一下开2个进程,所以能把cpu用满。当运行完testParallel后,三个进程的cpu都立刻降为1%左右了。

>> matlabpool close
Sending a stop signal to all the labs...
Waiting for parallel job to finish...
Performing parallel job cleanup...
Done.

当要关闭开辟的2个labs时,使用matlabpool close关闭即可。


代码及使用时间对比如下表:

 

function testParallel

%非并行

% matlabpool local 2

tic
total=10^5;
for (i=1:total)
    ss(i)=inSum;
end
plot(ss);
toc

% matlabpool close

function [s]=inSum
x=abs(round(normrnd(50,40,1,1000)));
s=sum(x);

 

function testParallel

%并行

matlabpool local 2

tic
total=10^5;
parfor (i=1:total) 
    ss(i)=inSum;
end
plot(ss);
toc

matlabpool close

function [s]=inSum
x=abs(round(normrnd(50,40,1,1000)));
s=sum(x);

Elapsed time is 70.471469 seconds.Elapsed time is 7.750534 seconds.

   70.471469/7.750534 = 9.0925,并行与否的时间比竟然是9倍,足以表明,在Matlab中使用多核并行运算给我们带来很多好处。

转载请注明出处http://hi.baidu.com/webas/item/438ed30e364e28cf905718d8


先简单试试:

>> matlabpool local 2
Submitted parallel job to the scheduler, waiting for it to start.
Connected to a matlabpool session with 2 labs.

显示正在进行多核配置,然后,提示连接到2个“实验室”(labs)。我这也理解的:本地虚拟出2台可以运行matlab的工作站,这样用分布式计算工具箱可以进行并行计算(matlabpool这个命令好像是在并行计算工具箱里的)。

>> testParallel
Elapsed time is 7.750534 seconds.

这里运行testParallel函数,已经开辟了2个labs,为了进行多核并行运算,testParallel中,要用parfor代替原来的for循环。

在运行这个时,观察windows任务管理器,可以发现一共有3个MATLAB.exe进程。其中一个占内存较多的,应该是主控的,他基本不干活,只负责分配,进行计算时他的cpu占用率只有1~2%,剩下两个进程专门用来计算的,跑起来各占cpu 49%左右。看上去还是每个matlab进程单核运算,但是一下开2个进程,所以能把cpu用满。当运行完testParallel后,三个进程的cpu都立刻降为1%左右了。

>> matlabpool close
Sending a stop signal to all the labs...
Waiting for parallel job to finish...
Performing parallel job cleanup...
Done.

当要关闭开辟的2个labs时,使用matlabpool close关闭即可。

 


代码及使用时间对比如下表:

 

 

function testParallel

%非并行

% matlabpool local 2

tic
total=10^5;
for (i=1:total)
    ss(i)=inSum;
end
plot(ss);
toc

% matlabpool close

function [s]=inSum
x=abs(round(normrnd(50,40,1,1000)));
s=sum(x);

 

function testParallel

%并行

matlabpool local 2

tic
total=10^5;
parfor (i=1:total) 
    ss(i)=inSum;
end
plot(ss);
toc

matlabpool close

function [s]=inSum
x=abs(round(normrnd(50,40,1,1000)));
s=sum(x);

Elapsed time is 70.471469 seconds.Elapsed time is 7.750534 seconds.

 

   70.471469/7.750534 = 9.0925,并行与否的时间比竟然是9倍,足以表明,在Matlab中使用多核并行运算给我们带来很多好处。


首先,LZ要搞清楚自己的电脑是几个核的。如果不是多核的,那就没有办法进行多核运算了。现在大多数电脑是双核的,也有一些高级一些的是四核。

如果是双核的,进行多核运算前,写上代码:
matlabpool local 2;
四核的话写上代码:
matlabpool local 4;
依此类推。

多核运算完以后,要记得关闭多核运算。写上代码:
matlabpool close;

要记住使用matlabpool和parfor缺一不可。开启了matlabpool,还是用for做循环的话,是无法回快速度的。

我没有让你把所有的for循环都改成parfor循环.我的意思是多核运算只能加速parfor的部分.

刚才试了一下,我使用的MATLAB2010可以多核运行的。需要多核多线程跑的算法,在之前要让matlab在本地建立4个“实验室”(我的机器是4核,所以是4个)
>> matlabpool local 4
Starting matlabpool using the 'local' configuration ... connected to 4 labs.
显示正在进行多核配置,一会说,连接到4个“实验室”。我理解就是在本地虚拟出4台可以运行matlab的工作站,这样用分布式计算工具箱可以进行并行计算(matlabpool这个命令好像是在并行计算工具箱里的)。观察windows任务管理器,可以发现一共有5个MATLAB.exe进程。其中一个占内存较多的,我理解是主控的,他基本不干活,只负责分配,进行计算时他的cpu占用率只有1~2%,剩下四个进程专门用来计算的,跑起来各占cpu 25%左右。看上去还是每个matlab进程单核运算,但是一下开4个进程,所以能把cpu用满。
如果后续还需要多核运算,就直接用parfor好了,不用每次都用matlabpool命令。那个配置一次就好。
算完了,不再跑了,临退出时关闭配置就行。
>> matlabpool close
Sending a stop signal to all the labs ... stopped.

下面是我一个M文件的程序,测测4核并行计算和单核计算的差距,很简单。
function testtime

runtimes = 1e9;
dummy1     = 0;
dummy2     = 0;

%matlabpool local 4

tic
%for x= 1:runtimes;
parfor x= 1:runtimes;
      dummy1 = dummy1 + x;
      dummy2 = 2 * x + 1;
end
toc

plot([1 2], [dummy1, dummy2]);

第一次用普通for语句,单核跑,6.09秒
>> testtime
Elapsed time is 6.094267 seconds.

第二次用parfor语句,4核跑,1.63秒
>> matlabpool local 4
Starting matlabpool using the 'local' configuration ... connected to 4 labs.
>> testtime
Elapsed time is 1.631350 seconds.
>> matlabpool close

加速比 6.09 / 1.63 = 3.736,将近4倍(还有开销吧),还比较可观。


 由于处理器时钟频率的限制,增加核并不意味着是计算性能的提高。为了充分利用新的多核硬件在性能上的优势,软件的基层结构需要向并行计算转换。MATLAB并行计算工具箱就是这种需求的产物,它能很好地实现在多核系统上进行并行运算。文章以典型的数值计算问题为例描述如何使用基本的两种并行运算方式:线程和并行for循环。

典型数值计算问题

      为了举例说明这两种方法,我们使用MATLAB 测试一个有关Girko圆定律的假设。Girko圆定律的内容是:一个N×N的随机矩阵(它的元素服从正态分布)的特征值位于半径为的圆内。假设Girko圆定律能被修改应用到奇异值上。这个假设是合理的因为奇异值是一个变换了的矩阵的特征值。首先我们用MATLAB代码实现Girko圆定律的一个实例:

N = 1000;
plot(eig(randn(N)) / sqrt(N), ‘.’);
这段代码运行后得到图1,图上每个点代表复平面上一个特征值。注意所有的特征值都位于半径为1 ,圆心在轴的原点的圆内,特别指出的是结果与Girko圆定律是一致的,特征值的幅值没有超过矩阵维数的平方根。

[转载]matlab <wbr>多核计算设置2
 
图1 大小为1000的随机矩阵的特征值在半径为sqrt(1000)的圆内


      为了将Girko定律应用到奇异值分解上,我们用MATLAB生成随机矩阵,然后估算它们的奇异值,看是否能基于数值计算阐明这个假设。我们用任意变量N计算max(svd(randn(N)))的值,然后在结果中寻找规律,而这个规律是可以用奇异值分解的理论解释的。

      通过下面的循环产生正规随机矩阵,并计算它们的奇异值:

y = zeros(1000,1);
for n = 1:1000
 y(n) = max(svd(randn(n)));
end
plot(y);

      在单核计算机上运行这段循环代码时需要15分钟多的时间。为了减少计算时间,我们用线程和并行  for循环在多核计算机上运行这段循环代码,然后再来比较性能结果。

使用线程

      线程是在多核计算机上进行并行计算的软件解决方案,但是需要记住的一点是多线程和多核处理器不是同一个概念。通常线程的数量和多核的数量一致时性能是最好的,但是也有线程比核少的情况。我们将通过实验去确定对于我们的计算所需的最佳的线程的个数。

      运行上面的代码,并通过MATLAB界面属性窗口或者使用maxNumCompThreads()函数去调节线程的个数。图2 显示了不同线程数量对应的结果。除了时间,还有加速情况和并行效率。前者是多核执行时间与单核执行时间的比率,理想地,我们期望在N个核上能达到N倍。后者是加速倍数与核的个数的比率,理想地,我们期望能达到100%。

 

线程个数

运行循环所需时间 

加速倍数 

效率 

1

902.6

1.00  

100%

2

867.2

1.04 

52%

3

842.3 

1.07 

35%

4

862.3

1.05 

 26%

 

图2 不同线程数量对应的代码性能

      结果呈现混合型的特点。使用线程确实能提高计算的速度,但是在我们的例子,只有对svd()的调用是被并行计算的。这是因为MATLAB所支持的线程是有限制的:用户不能决定代码的哪部分进行并行运算。

      一方面,我们使用多核在不改变代码的情况下加快了计算的速度。另一方面,当增加内核而并没有减少执行时间时就意味着是对成本的浪费。这个时候,我们需要另一种并行运算方法。

使用并行for循环

      Parfor循环,即并行for循环,在简单计算中有大量循环语句时是非常有用的。使用Parfor需要并行计算工具箱的支持。图3 是用Parfor语句和前面代码的对比。

 

y = zeros(1000,1);
for n = 1:1000
 y(n) = max(svd(randn(n)));
end
plot(y); 
 
y = zeros(1000,1);
parfor n = 1:1000
 y(n) = max(svd(randn(n)));
end
plot(y);
 

 

图3 左边:原来的代码  右边:用parfor实现的循环语句

      就像maxNumCompThreads()命令可以控制多核方法的并行运算,matlabpool命令能够控制parfor指令的并行行为。Matlabpool指令创建并行任务执行的环境,在此环境下并行for循环能够从MATLAB 的命令提示符交互执行。

      Parfor循环在labs上执行,labs之间是能够交互的。像线程一样,labs在处理器核上执行,但是labs的数量并不一定与核的数量相匹配。另不同于线程,labs互相之间是不共享存储单元的。所以,它们能够运行在联网的独立的计算机上。但是,在我们的例子中,我们仅需要知道并行运算工具箱使得parfor有效地工作在一个多核系统上。每个核或本地worker能主导一个lab。

      问题自然就出现了:改变代码值得吗?在我们的例子中,改变代码是值得的因为下面的表格清楚地表明了使用parfor的好处。

 

Labs数量 

运行循环所需时间 

加速倍数 

效率 

1

870.1 

1.00  

100% 

2

487.0 

1.79 

89% 

3

346.2 

2.51 

83% 

4

273.9 

3.17 

79% 

 

图4 不同的lab数量对应的代码性能

      从结果可以看出,对于此奇异值分解的计算,无论从加速情况还是效率,parfor的性能是优于多线程的。

      不细究代码实现的细节,也有必要解释使用parfor带来的好处。例子中的代码最显著的特征是每个循环是独立的。独立性的特征使得parfor的应用很简单也很高效。使用parfor留给系统的唯一任务是分配循环任务到核执行并获取结果用于其他的运算。

      值得说明的一点是parfor在随机数产生的问题上。在parfor循环中使用诸如randn()函数产生的矩阵与for循环中使用类似函数产生的矩阵并不一致,因为parfor循环的是已经被预定了的。在绝大多情况下,这种差异完全是可以接受的。

      使用parfor有它的优点,但也有其局限性。例如,如果循环之间相互依赖,而且这种依赖能够通过代码分析得到,那么执行parfor循环就会得到错误的结果。如果这种依赖关系没有检测到,那么就会得到不正确的结果。下面的代码说明了这样的问题:

total = 0;
A = zeros(1000, 1);
parfor i = 1:100
 total = total + i; % OK: this is ...
  ...a known reduction operation
 A(i+1) = A(i) + 1; % error: ...   ...loop iterations are dependent
end

利用parfor很容易计算total的表达式,但是对于第二个表达式,由于A(i+1)依赖于前一次循环得到的A(i),所以用parfor计算会产生问题。

让我们来更进一步地看看每次循环发生了什么:

Iteration 1: i = 1
 A(2) = A(1) + 1 = 0 + 1 = 1
Iteration 2: i = 2
 A(3) = A(2) + 1 = 1 + 1 = 2
Iteration 3: i = 3
 A(4) = A(3) + 1 = 2 + 1 = 3

通过以上分析我们可以用下面的parfor循环的代码得到跟前面同样结果的代码:

parfor i = 1:10
  A(i+1) = i;
end

扩展并行计算

      MATLAB已经支持几种并行方法,其他的方法将逐渐在高版本中实现。

      我们相信未来计算机将有越来越多的核。总是没过几年核的个数就翻倍,也意味着计算能力的翻倍。但是要利用好这种硬件的优势就需要正确的软件,而写正确的软件就需要正确的软件开发工具。MATLAB便旨在实现这种需求。
________________________________________

所需产品

  • MATLAB 
  • Parallel Computing Toolbox

资源与示例

  • Using parfor to Run Loops in Parallel 
  • Parallel Programming in MATLAB

文章

  • Eigenvalues and Condition Numbers of Random Matrices. Alan Edelman. Ph.D. thesis, Massachusetts Institute of Technology, May 1989.
  • Language Design for an Uncertain Hardware Future. Roy Lurie. HPCwire, September 28, 2007
  • Multiple Processors and Multiple Cores. Cleve Moler. The MathWorks News & Notes, June 2007

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值