GPU与CUDA（个人学习笔记）

弱冠少年

已于 2023-10-30 00:17:46 修改

阅读量125

点赞数

分类专栏： AIGC 文章标签：学习

于 2023-09-23 17:32:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40773212/article/details/133205581

版权

AIGC 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

主要参考资料：
B站视频《CUDA Python 科普之夜 | 手把手教你写GPU加速代码》
Github链接: https://github.com/sangyy/CUDA_Python

目录

CPU与GPU比较
CPU+GPU工作流
CUDA介绍
CUDA、cuDNN和Pytorch三个框架的关系

CPU与GPU比较

之前有听过一个比喻说，CPU里面的核心像是一个博士生，能完成高级运算，算得也快，但是所有事都得极少的几个人来完成；GPU像是有几千甚至上万的小朋友在里面，虽然每个小朋友能力不强，但是他们也只需要完成加减法计算就可以了。

抽象出来就是一个是串行计算，一个是并行计算，都有各自的应用领域。

底下两个图是另一种比喻：
在这里插入图片描述

上面说地比较抽象，拿GA100举例，它包含了：
（1）8192 FP32 CUDA Cores（用于计算的核心）
（2）128个SM（SM指stream multiprocessor，即流多处理器，可以方便一块线程之间的协作）
（3）每个SM包含64个FP32 CUDA Core，4个第三代Tensor Core

这是GA的整体硬件图
在这里插入图片描述
SM（流多处理器）框图

CPU+GPU工作流

上面说了GPU只是一个协处理器，没错，它就是打杂的！

因此一般它是配合CPU一起工作的，可以简单概括成三个过程。
（1）将输入数据从CPU内存复制到GPU显存
（2）在GPU芯片上缓存数据，加载GPU程序并执行
（3）将计算结果从GPU显存复制到CPU内存中
在这里插入图片描述

这里有两个术语，Host是指CPU和内存，Device是指GPU和显存。

GPU的最小运行单位是Thread线程，多个Thread线程组成一个Block块，多个Block块组成一个Grid网格。
在这里插入图片描述

CUDA介绍

GPU只是个协处理器，跑不了像WIindows、Linux这样的操作系统，但是它有自己的运行框架CUDA（Compute Unified Device Architecture）。

CUDA框架包含开发库、运行期环境（它的系统）和硬件驱动。

因此CUDA可以使用C/C++或者其他高级语言像Python、Java来编程。
其中CUDA C/C++有下面几个特性：
（1）基于C/C++
（2）支持异构编程的扩展方法
（3）简单明了的APIs，能够轻松的管理存储系统

CUDA、cuDNN和Pytorch三个框架的关系

CUDA是英伟达的一个计算架构，最终留出的API接口也主要是图像、矩阵、向量的这类的数学运算。

cuDNN是对CUDA的封装，是英伟达提供的一个深度学习的库，例如向前和向后卷积，池化，规范化和激活层。

PyTorch是一个深度学习框架，可以调用CUDA和CUDNN来加速。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
GPU与CUDA（个人学习笔记）

课程资料：https://github.com/sangyy/CUDA_Python。
复制链接

扫一扫

专栏目录

弱冠少年 CSDN认证博客专家 CSDN认证企业博客

码龄7年

62: 原创

6万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1106: 积分

295: 粉丝

453: 获赞

19: 评论

511: 收藏

私信

关注

热门文章

分类专栏

嵌入式软件 31篇
AIGC 9篇
嵌入式硬件 11篇
编程哲学 3篇
Pyhton 1篇
Linux 1篇

最新评论

CoreDump核心转储（基于ESP-IDF）
Booker_01: Failed to load core dump: Core dump version "0x536" is not supported! 你好我解析的时候，出现了这个错误，这是哪里出现了问题。
音频傅里叶变换（基于开源kissffs）
穷苦书生_万事愁: 经过阅读博主的文章“音频傅里叶变换（基于开源kissffs）-CSDN博客”，我对这个主题有了全新的认识。博主的文中细节描写非常到位，展现了博主深厚的专业功底。期待博主未来能够持续分享更多好文，为读者带来更多价值。同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
Arduino库制作
求伯乐: KEYWORD3为结构体高亮，对应图中theme property怎么不是 editor.structure.style 呢？
RTX2050也能部署ChatGLM2-6B大模型？
study1_Java: 我也没有会用GPU共享内存，你找到方法没
RTX2050也能部署ChatGLM2-6B大模型？
弱冠少年: 是的用的共享内存跑起来的，我没设置过，我这里是默认的，具体怎么设置我也不太清楚

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。