matlab parfor 慢,arrayfun可能比matlab中的显式循环慢得多 . 为什么?

您可以通过运行其他版本的代码来实现这个想法 . 考虑明确写出计算,而不是在循环中使用函数

tic

Soln3 = ones(T, N);

for t = 1:T

for n = 1:N

Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;

end

end

toc

在我的电脑上计算的时间:

Soln1 1.158446 seconds.

Soln2 10.392475 seconds.

Soln3 0.239023 seconds.

Oli 0.010672 seconds.

现在,虽然完全'vectorized'解决方案显然是最快的,但您可以看到为每个x条目定义要调用的函数是 huge 开销 . 只是明确地写出计算得到了因子5加速 . 我想这表明MATLABs JIT编译器does not support inline functions . 根据gnovice的回答,实际上写一个普通函数而不是一个匿名函数更好 . 试试吧 .

下一步 - 删除(向量化)内循环:

tic

Soln4 = ones(T, N);

for t = 1:T

Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;

end

toc

Soln4 0.053926 seconds.

另一个因素是5加速:这些陈述中有些东西说你应该避免MATLAB中的循环...或者真的存在吗?那么看看吧

tic

Soln5 = ones(T, N);

for n = 1:N

Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;

end

toc

Soln5 0.013875 seconds.

更接近'完全'矢量化版本 . Matlab按列存储矩阵 . 您应始终(在可能的情况下)将计算结构化为“逐列”矢量化 .

我们现在可以回到Soln3了 . 循环顺序有“行方式” . 让我们改变它

tic

Soln6 = ones(T, N);

for n = 1:N

for t = 1:T

Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;

end

end

toc

Soln6 0.201661 seconds.

更好,但仍然非常糟糕 . 单循环 - 很好 . 双循环 - 糟糕 . 我猜MATLAB在改进循环性能方面做了一些不错的工作,但仍然存在循环开销 . 如果你内心有一些较重的工作,你就不会注意到 . 但是由于这个计算是有限的内存带宽,你确实看到了循环开销 . 而且你更清楚地看到在那里调用Func1的开销 .

那么arrayfun有什么用呢?在那里也没有任何功能,所以很多开销 . 但为什么比双嵌套循环更糟糕呢?实际上,已经多次广泛讨论了使用cellfun / arrayfun的主题(例如here,here,here和here) . 这些函数速度很慢,你不能将它们用于这种细粒度的计算 . 您可以使用它们来实现代码简洁以及单元格和数组之间的精细转换 . 但功能需要比你写的更重:

tic

Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);

toc

Soln7 0.016786 seconds.

请注意,Soln7现在是一个单元格..有时这很有用 . 代码性能现在非常好,如果您需要单元格作为输出,则在使用完全矢量化解决方案后无需转换矩阵 .

那么为什么arrayfun比简单的循环结构慢呢?不幸的是,我们不可能肯定地说,因为没有可用的源代码 . 你只能猜测,因为arrayfun是一个通用函数,它处理各种不同的数据结构和参数,在简单的情况下它不一定非常快,你可以直接表示为循环嵌套 . 我们无法知道的开销来自哪里 . 更好的实施可以避免开销吗?也许不吧 . 但遗憾的是,我们唯一能做的就是研究绩效,以确定其运作的案例好吧,那些,它没有 .

Update 由于此测试的执行时间很短,为了获得可靠的结果,我现在添加了一个围绕测试的循环:

for i=1:1000

% compute

end

有时候给出如下:

Soln5 8.192912 seconds.

Soln7 13.419675 seconds.

Oli 8.089113 seconds.

你看到arrayfun仍然很糟糕,但至少比矢量化解决方案差三个数量级 . 另一方面,具有逐列计算的单个循环与完全矢量化版本一样快......这都是在单个CPU上完成的 . 如果切换到2个核心,Soln5和Soln7的结果不会改变 - 在Soln5中,我必须使用parfor来使其并行化 . 忘掉加速... Soln7并不是并行运行的,因为arrayfun并不是并行运行的 . 另一方面,Olis矢量化版本:

Oli 5.508085 seconds.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值