【GPU高性能编程CUDA实战】第5章线程协作

最新推荐文章于 2024-01-27 18:02:18 发布

张欣-男

最新推荐文章于 2024-01-27 18:02:18 发布

阅读量212

点赞数

分类专栏： CUDA

本文链接：https://blog.csdn.net/sdlypyzq/article/details/88550046

版权

5 篇文章 0 订阅

订阅专栏

add<<<N, 1>>>(dev_a, dev_b, dev_c);

第一个参数：启动的线程块数量。
第二个参数：每个线程块中创建的线程数量。

代码：add_loop_blocks.cu

// 启动N个线程块，每个线程块对应一个线程
// add<<<N, 1>>>(dev_a, dev_b, dev_c);

// 改为启动N个线程，所有线程都在一个线程块内。
add<<<1, N>>>(dev_a, dev_b, dev_c);

// 线程块索引，改为线程索引
int tid = blockIdx.x;
// -->>
int tid = threadIdx.x;

####　2. 在GPU上对更长的矢量求和
（1）线程块数量限制：65535
（2）线程最量：maxThreadsPerBlock

代码：add_loop_long_blocks.cu

__share__       使用这个变量驻留在共享内存中。

对于GPU上启动的每一个线程块，CUDA C编译器将创建该变量的一个副本，线程块中的每个线程都共享这块内存，，但线程却无法看到也不能修改其他线程块的变量副本。

代码：dot.cu

__syncthreads(); // 确保线程块中的每个线程都执行完__syncthreads()前面的语句后，才会执行下一条语句。

代码：shared_bitmap.cu

关注

专栏目录