DCU
文章平均质量分 76
冰冰冰冰淇淋君
这个作者很懒,什么都没留下…
展开
-
Fortran内置函数、blas库、DCU矩阵相乘结果精度对比与耗时统计
本文章对六种矩阵相乘算法进行了结果精度对比与耗时统计分析。六种矩阵相乘分别为Fortran的内置函数matmul(),blas库的dgemm(),Fortran编写的常规矩阵相乘,DCU并行矩阵相乘,C编写的常规矩阵相乘,C编写的优化后矩阵相乘。DCU使用1000个线程做矩阵乘法,每个线程计算最终矩阵的一行结果。C编写的优化后的矩阵相乘为通过提高缓存命中率从而提高效率。 矩阵为随机生成的1000*1000规模的双精度浮点数,矩阵乘法的规则为矩阵A乘矩阵A的转置,但是矩阵A与矩阵A的转置存储在内原创 2022-06-22 15:40:36 · 1933 阅读 · 0 评论 -
曙光超算Fortran混编C并启动DCU计算
曙光超算Fortran混编C并启动DCU计算原创 2022-06-09 11:57:45 · 1659 阅读 · 0 评论