当年话下
我已经将其发布在另一个线程中,但我认为它更适合于此:更新(30.07.2014):我在新的HPC上重新运行基准测试。硬件和软件堆栈都与原始答案中的设置有所不同。我将结果放在Google电子表格中(还包含原始答案的结果)。硬件我们的HPC有两个不同的节点,一个带有Intel Sandy Bridge CPU,另一个带有较新的Ivy Bridge CPU:桑迪(MKL,OpenBLAS,ATLAS):CPU:2 x 16 Intel(R)Xeon(R)E2560 Sandy Bridge @ 2.00GHz(16核心)内存:64 GB常春藤(MKL,OpenBLAS,ATLAS):CPU:2 x 20英特尔(R)至强(R)E2680 V2常春藤桥@ 2.80GHz(20核,HT = 40核)内存:256 GB软件该软件堆栈用于两个节点的sam。代替GotoBLAS2,OpenBLAS被使用并且也有一个多线程的ATLAS BLAS它被设置为8个线程(硬编码)。操作系统:Suse英特尔编译器:ictce-5.3.0脾气暴躁的: 1.8.0OpenBLAS: 0.2.6ATLAS:: 3.8.4点产品基准基准代码与以下相同。但是对于新机器,我还运行了5000和8000矩阵尺寸的基准测试。下表包含原始答案的基准测试结果(重命名为:MKL-> Nehalem MKL,Netlib Blas-> Nehalem Netlib BLAS等)矩阵乘法(大小= [1000,2000,3000,5000,8000])单线程性能: 单线程性能多线程性能(8个线程):