相关资料:
3 测试结果与分析
实验平台包括 HD5870 GPU、Tesla C2050 GPU
和IntelXeon X5650 处理器机群,其主要的处理器体系结构参数如表3
所示。实验中所使用的数据集与第二节分析程序中的数据一致,如表1 所示。
为了实验的对比分析,我们实现了4 个版本的FDTD程序:CPU 上执行的FDTD-serial 串行程序、多核CPU
上执行的FDTD-MPI 并行程序、ATI GPU 上执行的FDTDOpenCL加速程序和NVIDIA GPU
上执行的FDTD-CUDA加速程序。目前而言,单精度计算可以满足所测试FDTD实验场景的需求,所以不开启OpenCL
的双精度浮点运算支持。评价总体性能的标准为GPU 版相对CPU 版的加速比,计算公式为CPU 执行时间/GPU
执行时间。
3.1 GPU 加速分析
图 7 显示FDTD 在SMALL 数据集下,在1 个CPU 核、4 个CPU 核、8 个CPU
核、Tesla C2050 GPU 和HD5870 GPU下计算时间对比。多CPU 核使用MPI 调度数据,GPU
加速代码为OpenCL.由图可见,在SMALL 数据集下,使用HD5870,OpenCL 加速相对CPU
加速比可达到8.11,且性能比8 个CPU 的MPI 加速性能还要好。