cuda编程（5）

最新推荐文章于 2024-07-17 17:29:52 发布

m0_54743939

最新推荐文章于 2024-07-17 17:29:52 发布

阅读量324

点赞数

分类专栏： 2021SC@SDUSC 文章标签：密码学

本文链接：https://blog.csdn.net/m0_54743939/article/details/121716881

版权

1、介绍图形处理单元 (GPU) 提供比 CPU 高得多的指令吞吐量和内存带宽类似的价格和功率范围。许多应用程序利用这些更高的功能来在 GPU 上运行比在 CPU 上运行得更快。其他计算设备，如 FPGA，也非常节能，但提供的能源要少得多编程灵活性优于 GPU。GPU 和 CPU 之间存在这种能力差异是因为它们设计时考虑了不同的目标。虽然 CPU 旨在擅长执行一系列操作，称为线程，尽可能快且可以执行几十个这样的线程并行运行，GPU 旨在擅长执行数千个并行（分摊较慢的单线程性能以

摘要由CSDN通过智能技术生成

1、介绍

图形处理单元 (GPU) 提供比 CPU 高得多的指令吞吐量和内存带宽类似的价格和功率范围。许多应用程序利用这些更高的功能来在 GPU 上运行比在 CPU 上运行得更快。其他计算设备，如 FPGA，也非常节能，但提供的能源要少得多编程灵活性优于 GPU。

GPU 和 CPU 之间存在这种能力差异是因为它们设计时考虑了不同的目标。虽然 CPU 旨在擅长执行一系列操作，称为线程，尽可能快且可以执行几十个这样的线程并行运行，GPU 旨在擅长执行数千个并行（分摊较慢的单线程性能以实现更大的吞吐量）。
2. 编程模型

2.1. 内核

CUDA C++ 通过允许程序员定义 C++ 函数来扩展 C++，称为 kernels ，当被调用时，会在其中执行 N 次由 N 个不同的并行 CUDA 线程，而不是仅曾经像普通的 C++ 函数一样。

内核定义为 global 宣言说明符和执行该内核的 CUDA 线程数给定的内核调用是使用新的 <<<…>>> 执行配置语法（请参阅 C++ 语言扩展）。每个执行内核的线程被赋予一个唯一的线程 ID ID ，该可在内核通过内置变量。

作为说明，以下示例代码，使用内置变量线程标识符 , 将两个向量相加 A 和 B 大小为 N 的并存储结果转化为向量 C ：

// 内核定义

__global__  void VecAdd( float * A, float * B, float * C) 
 {
    
     int i = threadIdx .x; 
     C[i] = A[i] + B[i]; 
 } 

 int main() 
 {
    
     ... 
     // 内核调用 N 个线程 
     VecAdd <<< 1, N >>> (A, B, C); 
     ... 
 }

这里，每个的 N 个执行线程向量添加() 执行一对加法。
2.2. 线程层次结构

为了方便，线程标识符是一个三分量向量࿰

最低0.47元/天解锁文章

m0_54743939

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cuda编程（5）

1、介绍图形处理单元 (GPU) 提供比 CPU 高得多的指令吞吐量和内存带宽类似的价格和功率范围。许多应用程序利用这些更高的功能来在 GPU 上运行比在 CPU 上运行得更快。其他计算设备，如 FPGA，也非常节能，但提供的能源要少得多编程灵活性优于 GPU。GPU 和 CPU 之间存在这种能力差异是因为它们设计时考虑了不同的目标。虽然 CPU 旨在擅长执行一系列操作，称为线程，尽可能快且可以执行几十个这样的线程并行运行，GPU 旨在擅长执行数千个并行（分摊较慢的单线程性能以
复制链接

扫一扫