CUDA编程1--GPU内存模型

最新推荐文章于 2024-05-01 00:03:32 发布

龙俊杰的读书笔记

最新推荐文章于 2024-05-01 00:03:32 发布

阅读量633

点赞数

文章标签： GPU CUDA 并行计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011852872/article/details/125523209

版权

GPU架构

在这里插入图片描述

GPU内存类型及生命周期

GPU内存类型及生命周期

Local memory: 每个线程都有自己的私有本地内存及寄存器
Shared memory：可以被线程块中所有线程共享，周期与线程块一致；
Global memory：所有的线程都可以访问。平时所说的 “显存”，相对来说，速度最慢
Constant memory常量内存和texture memory纹理内存：只读内存块。所有线程均可访问。对于一个应用来说，全局内存、常量内存和纹理内存具有相同的生命周期。
L1 cache、L2 cache：每个MP有L1、L2 cache，MP 通过L2与global memory连接

可编程内存

在这里插入图片描述

寄存器

在这里插入图片描述

本地内存

在这里插入图片描述
2.0 指GPU的计算能力

共享内存

在这里插入图片描述
Q: MDC的访存操作可否并行？(一个AIcore核内)

在这里插入图片描述

共享内存访问冲突

在这里插入图片描述

在这里插入图片描述
warp: 一个block中有若干个thread，每warpsize个thread称为一个warp [见 GPU的线程模型]

在这里插入图片描述
线程访问banks示意图，左图及右图1 均为无访问冲突
右图2 存在3 4 6 7 9线程同时访问一个bank，因此硬件会将请求分成5个没有冲突的访问序列。

常量内存

在这里插入图片描述

纹理内存

在这里插入图片描述

全局内存

在这里插入图片描述

全局内存对齐访问

在这里插入图片描述

GPU缓存

在这里插入图片描述

龙俊杰的读书笔记

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程1--GPU内存模型

GPU/CUDA编程基础
复制链接

扫一扫

龙俊杰的读书笔记 CSDN认证博客专家 CSDN认证企业博客

码龄11年

46: 原创

10万+: 周排名

198万+: 总排名

8万+: 访问

: 等级

984: 积分

44: 粉丝

63: 获赞

24: 评论

347: 收藏

私信

关注

热门文章

分类专栏

最新评论

PyTorch 入坑九：权重初始化
LeePriestley: 一般模型初始化是在网络架构的__init__中，还是在训练前？
C++入门(三)：移动语义
阿姆达尔: 在移动构造函数的地方按照您这样的无参构造是不可能输出下面的结果的，无参构造不会去调用移动构造函数，怎么会输出move construct呢
PyTorch 入坑九：权重初始化
Tengfei Wang: neural_nums 神经元的数目是怎么计算的呢？
入门设计原则C++实现四:里氏替换原则
woquNOKIA: 当子类的方法重载父类的方法时，方法的前置条件（即方法的输入参数）要比父类的方法更宽松当子类的方法实现父类的方法时（重写/重载或实现抽象方法），方法的后置条件（即方法的的输出/返回值）要比父类的方法更严格或相等这2点能举例吗？？
入门设计原则C++实现一：单一职责原则
qq_43196193: /必须将指针转换为派生类指针类型，如果 delete* ma；则只delete了基类对象错误虚析构函数定义后基类可以调用派生类的纯虚析构函数需要定义析构函数体

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。