matlab指针矩阵乘法,为什么MATLAB在矩阵乘法中速度这么快?

这类问题是反复出现的,应该比“Matlab使用高度优化的库”或“Matlab使用MKL”一次更清楚地回答堆栈溢出。

历史:

矩阵乘法(与矩阵向量、向量乘法和许多矩阵分解一起)是线性代数中最重要的问题。工程师们从早期就开始用计算机解决这些问题。

我不是历史专家,但很显然,当时每个人都用简单的循环重写了他的Fortran版本。随后出现了一些标准化,识别了大多数线性代数问题需要解决的“核”(基本例程)。然后,这些基本操作在一个名为:基本线性代数子程序(BLAS)的规范中标准化。然后,工程师可以在他们的代码中调用这些标准的、经过良好测试的blas例程,从而使他们的工作更加容易。

BLAS:

BLAS从第一级(定义标量向量和向量操作的第一个版本)发展到第二级(向量矩阵运算)到第三级(矩阵运算),并提供了越来越多的“核”,使越来越多的基本线性代数运算标准化。最初的Fortran 77实现仍然可以在Netlib网站.

争取更好的业绩:

因此,多年来(特别是在BLAS第1级和第2级发布之间:80年代初),随着向量操作和缓存层次结构的出现,硬件发生了变化。这些进化使BLAS子例程的性能大大提高成为可能。然后,不同的供应商来实现越来越有效率的BLAS例程。

我不知道所有的历史实现(我不是天生的,也不是那个时候的孩子),但最著名的两个实现出现在21世纪初:Intel MKL和GotoBLAS。您的Matlab使用Intel MKL,这是一个非常好的,优化的BLAS,这解释了您看到的伟大性能。

矩阵乘法的技术细节:

那么,为什么Matlab(MKL)在dgemm(双精度一般矩阵-矩阵乘法)?简单地说:因为它使用了矢量化和良好的数据缓存。更复杂的术语:参见文章由乔纳森·摩尔提供。

基本上,当您在所提供的C+代码中执行乘法时,您对缓存一点也不友好。由于我怀疑您创建了一个指向行数组的指针数组,所以您在内部循环中访问“matice 2”的第k列:matice2[m][k]都很慢。实际上,当你访问matice2[0][k],您必须得到矩阵数组0的k元素。然后在下一次迭代中,您必须访问matice2[1][k],它是另一个数组(数组1)的第k个元素.然后在下一次迭代中访问另一个数组,依此类推.因为整个矩阵matice2不能放在最高的缓存中(它是8*1024*1024),程序必须从主内存中获取所需的元素,从而损失大量时间。

如果您只是转换了矩阵,以便访问将位于连续的内存地址中,那么您的代码将运行得更快,因为现在编译器可以同时在缓存中加载整个行。只需尝试这个修改后的版本:timer.start();float temp = 0;//transpose matice2for (int p = 0; p 

for (int q = 0; q 

{

tempmat[p][q] = matice2[q][p];

}}for(int j = 0; j 

for (int k = 0; k 

{

temp = 0;

for (int m = 0; m 

{

temp = temp + matice1[j][m] * tempmat[k][m];

}

matice3[j][k] = temp;

}}timer.stop();

因此,您可以看到缓存局部性如何极大地提高了代码的性能。现在是真实的dgemm实现将其利用到了一个非常广泛的层次:它们在由TLB(TransferingLookAbout缓冲器,长话短说:可以有效缓存的内容)定义的矩阵块上执行乘法,从而将处理的数据量准确地流到处理器。另一方面是矢量化,它们使用处理器的向量化指令来优化指令吞吐量,这在跨平台C+代码中是无法做到的。

最后,人们声称这是因为Strassen‘s或CoppersSmith-Winograd算法是错误的,这两种算法在实践中都是不可实现的,因为上面提到的硬件考虑因素。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值