CUDA程序性能分析-矩阵乘法
前言
矩阵乘法非常适合在GPU上并行运行,但是使用GPU并行后能获得多大的性能提升?本文将通过一些实验分析CUDA程序的性能。
测试环境
本文使用Dell XPS 8700作为测试机,相关配置如下:
. | |
---|---|
型号 | Dell XPS 8700 |
CPU | Intel Core i7-4970 3.6GHz |
主存 | 16GB |
GPU | GeForce GTX 750Ti |
OS | Windows 10 64bit |
CUDA | CUDA 8.0 |
带宽测试
使用CUDA Toolkit提供的示例程序