parallel computation
weixin_42470012
这个作者很懒,什么都没留下…
展开
-
两种不同的核函数引发的访问共享内存以及全局内存的区别
最近发现了一条真理,那就是科研项目中遇到问题,千万别企图绕过去,因为,最终还是会发现,那个悬而未决的问题会最终把你带回原地。废话不多说,先盗用大佬的一张图,在CUDA架构下, 显示芯片执行时的最小单位是thread. 数个thread可以组成一个block. 一个block中的thread能存取同一块共享的内存(shared memory), 而且可以快速进行同步的动作, 特别要注意, 这是块(b...原创 2019-12-04 00:27:24 · 753 阅读 · 0 评论 -
CPU与GPU在大型矩阵计算时的性能对比
最近开始学习GPU编程,在GPU这种架构下,对大型矩阵乘法以及加法所带来的计算优势还是很有潜力。最近对这种并行结构下的GPU计算很着迷。我可能面对的是一个几十万列矩阵的乘法与加法,所以希望可以把CPU下的循环结构一知道GPU架构下,做并行计算。我先对比了在CPU和GPU下的1000×1000矩阵乘法的完成时间,结果发现,时间上的提升还是很显著的。但是,该GPU程序的核函数部分没有使用共享内存,m...原创 2019-12-03 07:58:04 · 2918 阅读 · 0 评论 -
关于CUDA计算矩阵乘法那些事情
我想记录一下今天所做的事情,与我自己对GPU 的对矩阵加速的并行运算的认知有点背道而驰,我一共写了三个相同的并行计算程序,理论上, 在cpu上面运行的应该是最慢的,用共享内存计算的那个应该是最快的,但是,结果却是与预计的相反。我的提前生命一下, cpu 的程序是用NVCC编译的,并不是严格意义的.cpp文件,我生成了.cu文件。接下来贴出我的源码,可以直接运行。算了,源码有些长,但是按照运算的时...原创 2019-12-02 11:45:02 · 284 阅读 · 1 评论