CUDA编程
Riesman
Life can be what I make it.
展开
-
cuda实践-2
并行求pi(练习规约)这个例子比较好。考察了对于各级内存的使用。实质就是数据规约。 注意: (1)动态申请share memory空间时,需要在<<< >>>的第3个参数处指明空间大小(当然,不能超过share memory的总大小)。然后再kernel函数里,用的时候直接,这样使用:·extern float __shared__ s_pi[];// 代码:/* calculate PI: t原创 2017-03-02 20:07:56 · 370 阅读 · 0 评论 -
CUDA编程实践-3
矩阵转置求解实现了两个版本的转置。一种是没有进行内存优化,直接上gpu的版本。 一种是考虑访存优化,利用share-memory进行优化。先把host端的代码粘出来: host端代码: #include<stdio.h> #include <stdlib.h> #include <cuda_runtime.h> #include <helper_cuda.h> #def原创 2017-03-16 17:08:02 · 369 阅读 · 0 评论