CUDA学习--4

最新推荐文章于 2023-10-09 20:57:40 发布

StefanSalvatore

最新推荐文章于 2023-10-09 20:57:40 发布

阅读量546

点赞数

分类专栏： CUDA 文章标签： cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stefansalvatore/article/details/61417475

版权

CUDA 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

整理自《基于CUDA的并行程序设计》刘金硕、邓娟、周峥、曾秋梅等

1. 多核CPU和纵核GPU组合形成的异构计算系统不仅可以得到传统的技术积累，还有利于推动高性能计算技术的创新。

CPU作为主处理器（host），主要执行控制逻辑和事务处理等串行计算；而GPU作为协处理器（co-processor）或者设备（device），主要执行计算密度高、逻辑分之简单的大规模数据并行计算。CPU和GPU通过PCI-E总线相连，同时拥有各自的存储空间，分别为主存和显存。

2. 如果一个计算任务可以被划分为多个相互独立或者彼此之间依赖性很小的子任务，同时处理这些子任务不需要复杂的控制流，则该任务适合由GPU来进行并行处理。

3. nvcc命令用来编译CUDA程序，它会自动调用gcc编译器来编译C语言代码，NVIDIA PTX编译器来编译CUDA代码。

4. 已声明为__device__的函数，只能从其他__device__函数或者从__global__函数中调用它们。

《GPU高性能运算之CUDA》张舒褚艳利

1、一个kernel函数中存在两个层次的并行，即Grid中的block间并行和block中的thread间并行。

两层并行模型是CUDA最重要的创新之一。

2、实质上，kernel是以block为单位执行的，CUDA引入了grid只是用来表示一系列可以并行执行的block的集合。各block是并行执行的，block间无法通信，也没有顺序。这样，无论是只能同时处理一个线程块的GPU上，还是在能同时处理数十乃至上百个线程块的GPU上，这一编程模型都能很好地适用。

3、在同一个block中的线程，可以进行数据通信。

4、CUDA中属于同一线程块的线程不仅能够并行执行，而且能够通过共享存储器和栅栏同步实现block内的线程间通信。

这样，同一grid中的不同block之间存在不需要通信的粗粒度并行，同一block内的线程之间又形成了允许通信的细粒度并行。

这些就是CUDA的关键特性：线程按照两个层次进行组织、在较低的层次通过共享存储器和栅栏同步实现通信。

5、runtimea API 中的函数以cuda为前缀，driver API中的函数则以cu为前缀。

6、

StefanSalvatore

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA学习--4

整理自《基于CUDA的并行程序设计》刘金硕、邓娟、周峥、曾秋梅等1. 多核CPU和纵核GPU组合形成的异构计算系统不仅可以得到传统的技术积累，还有利于推动高性能计算技术的创新。CPU作为主处理器（host），主要执行控制逻辑和事务处理等串行计算；而GPU作为协处理器（co-processor）或者设备（device），主要执行计算密度高、逻辑分之简单的大规模数据并行计算。CPU和GPU
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。