cuda编程与gpu并行计算（一）：gpu与cuda概论

最新推荐文章于 2023-07-10 08:50:33 发布

好想成为wqg啊

最新推荐文章于 2023-07-10 08:50:33 发布

阅读量1.1k

点赞数

文章标签： gpu cuda

本文链接：https://blog.csdn.net/qq_42812089/article/details/111941324

版权

gpu和cpu的区别
GPU采用了数量众多的计算单元和超长的流水线。但只有非常简单的控制逻缉并省去了Cache。而CPU不仅被Cache 占国了大量空间，而且还有有复杂的控制逻辑和很多优化电路，相比之下计算能力是CPU很小的一部分

在这里插入图片描述
CPU的发展：处理器越来越小，处理速度越来越快，处理核变多

性能（低延时性Latency）与吞吐量（Throughput）

Cache local memory ：CPU > GPU
Threads : GPU > CPU
Registers ：GPU > CPU

CPU重性能 GPU重吞吐量

ALU,Cache: GPU的特点是有很多的ALU和很少的cache.缓存的目的不是保存后面需要访问的数据的，这点和CPU不同，而是为thread提高服务的。如果有很多线程需要访问同一个相同的数据，缓存会合并这些访问，然后再去访问dram(因为需要访问的数据保存在dram中而不是cache里面)，获取数据后cache会转发这个数据给对应的线程，这个时候是数据转发的角色。但是由于需要访问dram，自然会带来延时的问题。
Control: 控制单元可以把多个的访问合并成少的访问。
·GPU的虽然有dram诞延时，却有非常多的ALU和非常多的thead.为了平衡内存延时的问题，我们可以中充分利用多的ALU的特性达到一个非常大的吞吐量的效果。尽可能多的分配多的Threads.通常来看GPU ALU会有非常重的pipeline就是因为这样。
CPU擅长逻缉控制，串行的运算。和通用类型数据运算不同，GPU擅长的是大规模并发计算，这也正是密码玻解等所需要的。所以GPU除了图像处理，也越来越多的参与到计算当中来。

CUDA,，全称是Compute Uified Device Architecture，英伟达在2007年推出这个统一计算架构。为了让gpu有可用的编程环境，从而能通过程序控制底层的硬件进行计算,CUDA提供host-device的编程模式以及非常多的接口函数和科学计算库，通过同时执行大量的线程而达到并行的目的。CUDA也有不同的版本，从1.0开始到现在的8.0，每个版本都会有一些新特性。CUDA是基于C语言的扩展，例如扩展了一些限定符device、shared等，从3.0开始
也支持c++编程，从7.0开始支持c++11。

在这里插入图片描述
CUDA应用程序可以通过直接调用底层的CUDA驱动来调用GPU硬件进行并行计算
也可以使用对底层驱动进行了一定封装的CUDA运行时库来简化编程过程(二者不可混合使用)

CUDA函数库
CUDA提供了几个较为成熟的高效函数库,程序员可以直接调用这些库函数进行计算,因而大大简化了程序员的工作量。其中最常用的包括:
CUFFT(利用CUDA进行傅里叶变换的函数库)
CUBLAS(利用CUDA进行加速版本的完整标准矩阵与向量的运算库). CUDPP（常用的并行操作函数库)
CUDNN(利用CUDA进行深度卷积神经网络，深度学习常用)

NVCC编程
由于程序是要经过编译器编程成可执行的二进制文件，而cuda程序有两种代码。一种是运行在cpu上的host代码，一种是运行在gpu上的device代码，所以NVCC编译器要保证两部分代码能够编译成二进制文件在不同的机器上执行

在这里插入图片描述

好想成为wqg啊

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
cuda编程与gpu并行计算（一）：gpu与cuda概论

gpu和cpu的区别GPU采用了数量众多的计算单元和超长的流水线。但只有非常简单的控制逻缉并省去了Cache。而CPU不仅被Cache 占国了大量空间，而且还有有复杂的控制逻辑和很多优化电路，相比之下计算能力是CPU很小的一部分CPU的发展：处理器越来越小，处理速度越来越快，处理核变多性能（低延时性Latency）与吞吐量（Throughput）Cache local memory ：CPU > GPUThreads : GPU > CPURegisters ：GPU >
复制链接

扫一扫