
C++
冰冰冰冰淇淋君
这个作者很懒,什么都没留下…
展开
-
C++基础之多态,泛型,运算符重载
【代码】C++基础之多态,泛型,运算符重载。原创 2022-09-02 13:46:49 · 394 阅读 · 0 评论 -
以提高缓存命中率为基础的矩阵相乘算法
实现以提高缓存命中率为基础的矩阵相乘算法,矩阵转置,方阵转置。将数学函数封装为动态链接共享库,以测试程序调用。没测试,待补充。原创 2022-07-18 18:02:00 · 351 阅读 · 0 评论 -
Fortran代码C化或Fortran与C/C++混编过程中矩阵转置的实现
这个过程中的主要问题为Fortran数据存储为列优先,C/C++数据存储为行优先。Fortran从文件中读取数据存储到Fortran_A(nx, ny),在C/C++从文件中读取数据存储到指针C_A指向的内存空间,两者数据在内存中的存储顺序一致,但是默认该矩阵的维度为(ny, nx)。 以转置后的矩阵C_AT为基础,按内存地址递增的顺序填充矩阵C_AT。这样只需要把关注点放在待转置矩阵C_A上,以列优先的方式遍历矩阵C_A[ny, nx],并获取对应的数据点填充到C_AT中。RESULT原创 2022-07-14 12:42:27 · 807 阅读 · 0 评论 -
MPI编程基础与常用函数
MPI编程基础与常用函数,使用MPI做矩阵相乘以及并行求解pai原创 2021-12-23 09:49:10 · 1537 阅读 · 0 评论 -
Fortran内置函数、blas库、DCU矩阵相乘结果精度对比与耗时统计
本文章对六种矩阵相乘算法进行了结果精度对比与耗时统计分析。六种矩阵相乘分别为Fortran的内置函数matmul(),blas库的dgemm(),Fortran编写的常规矩阵相乘,DCU并行矩阵相乘,C编写的常规矩阵相乘,C编写的优化后矩阵相乘。DCU使用1000个线程做矩阵乘法,每个线程计算最终矩阵的一行结果。C编写的优化后的矩阵相乘为通过提高缓存命中率从而提高效率。 矩阵为随机生成的1000*1000规模的双精度浮点数,矩阵乘法的规则为矩阵A乘矩阵A的转置,但是矩阵A与矩阵A的转置存储在内原创 2022-06-22 15:40:36 · 2266 阅读 · 0 评论 -
C/C++读写文件
简单的文件读写。原创 2022-06-16 11:06:10 · 363 阅读 · 0 评论 -
曙光超算Fortran混编C并启动DCU计算
曙光超算Fortran混编C并启动DCU计算原创 2022-06-09 11:57:45 · 1804 阅读 · 0 评论 -
C/C++在Linux上的多线程
在集群上每个计算节点有三四十个核心,往往使用MPI对任务进行并行计算,计算资源平均分布在多个节点的多个CPU核心上。为了充分利用计算节点剩余的核心,可以将任务再次细分,在MPI多进程的基础上每个进程使用多线程调用空闲核心完成计算。...原创 2022-06-07 15:14:41 · 339 阅读 · 0 评论