cuda并行编程基础（二）

最新推荐文章于 2024-07-17 00:57:19 发布

alpc40

最新推荐文章于 2024-07-17 00:57:19 发布

阅读量2.4k

点赞数 8

分类专栏： cuda c++ 文章标签： cuda 并行编程 c++ c

本文链接：https://blog.csdn.net/weixin_39212021/article/details/78848659

版权

本文深入探讨CUDA并行编程的基础，包括如何确定一维、二维数组的block和grid尺寸，以及内存管理。通过示例代码解释了不同block和grid分配方法对计算的影响，并展示了GPU内存的使用，如CUDA内存管理函数cudaMalloc、cudaMemcpy等。同时，提供了一个简单的内存管理程序，演示了数据在GPU之间的传输和计算过程。

摘要由CSDN通过智能技术生成

二、一些基础
    上接： cuda并行编程基础（一）
    （二）cuda基础：gridBlock.cu
        4.总计算量与block、grid的关系
            假设一维数组总计算量为total_c，怎么确定block与grid呢?
            一维数组：
                int cal_array[XX];
                int thd_num=16;
                dim3 block(thd_num);//一般block.x * block.y * block.z <=1024，1024这个值根据显卡性能确定
                dim3 grid((XX + thd_num -1)/thd_num);//这里为何这么计算呢？
            之所以grid.x = XX + thd_num - 1 /thd_num，原因是要保证block*grid >=XX
            二维数组：
                int cal_array[XX][YY];
                int thd_x_num=16,thd_y_num=32;
                dim3 block(thd_x_num,thd_y