现代GPU内存分级结构

transformer_WSZ

已于 2024-04-22 01:31:25 修改

阅读量67

点赞数

分类专栏： LLM 文章标签： GPU

于 2024-04-22 01:04:25 首次发布

原文链接：https://zhuanlan.zhihu.com/p/654027980

版权

LLM 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

本文详细介绍了CUDA编程中GPU的内存结构，包括全局内存、常量内存、纹理内存、表面内存、共享内存、寄存器和局部内存的特点及使用方法，强调了对这些内存理解对高性能编程的重要性，以及如何进行内存优化。

摘要由CSDN通过智能技术生成

要实现CUDA高性能编程，就必须对GPU内存结构有深刻的了解。

GPU

全局内存

就是我们常说的显存，其容量最大、带宽最小、延迟最高。

常量内存

存储在片下存储的设备内存上，但是通过特殊的常量内存缓存进行缓存读取，常量内存为只读内存，只有64KB。由于有缓存，常量内存的访问速度比全局内存高。

使用常量内存的方法是在核函数外面用 __constant__ 定义变量，并用函数 cudaMemcpyToSymbol 将数据从主机端复制到设备的常量内存后供核函数使用。

纹理内存和表面内存

纹理内存和表面内存类似于常量内存，也是一种具有缓存的全局内存，有相同的可见范围和生命周期，而且一般仅可读(表面内存也可写)。不同的是，纹理内存和表面内存容量更大，而且使用方式和常量内存也不一样。

共享内存

共享内存存在于芯片上，具有仅次于寄存器的读写速度，数量也有限。一个使用共享内存的变量可以 __shared__ 修饰符来定义。该变量对block内的所有线程可见。

寄存器

寄存器是一个线程能独立访问的资源，它所在的位置与局部内存不一样，是在片上（on chip）的存储，用来存储当前线程的一些暂存数据。寄存器的速度是访问中最快的，但是它的容量较小。

在核函数中定义的不加任何限定符的变量一般来说就存放于寄存器(register)中。各种内建变量，如 gridDim、blockDim、blockIdx、 threadIdx 及 warpSize 都保存在特殊的寄存器中，以便高效访问。举例如下：

const int n = blockDim.x * blockIdx.x + threadIdx.x;
c[n] = a[n] + b[n];

n 也是一个寄存器变量，当只能被当前线程访问。

局部内存

局部内存和寄存器几乎一样，核函数中定义的不加任何限定符的变量有可能在寄存器中，也有可能在局部内存中。寄存器中放不下的变量，以及索引值不能在编译时就确定的数组，都有可能放在局部内存中。

虽然局部内存在用法上类似于寄存器，但从硬件来看，局部内存只是全局内存的一部分。所以，局部内存的延迟也很高。每个线程最多能使用高达512KB的局部内存，但使用过多会降低程序的性能。

总结

detail

转载

CUDA（二）：GPU的内存体系及其优化指南

transformer_WSZ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

transformer_WSZ CSDN认证博客专家 CSDN认证企业博客

码龄8年

215: 原创

2万+: 周排名

7428: 总排名

40万+: 访问

: 等级

4633: 积分

388: 粉丝

614: 获赞

30: 评论

1204: 收藏

私信

关注

热门文章

分类专栏

最新评论

U-Net原理及代码实现
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
alfred自定义谷歌翻译workflow
transformer_WSZ: 具体细节我也记不清了。你可以把python命令和py文件都写成绝对路径试试，这样应该不报错
alfred自定义谷歌翻译workflow
BPA Lab: 博主你好，这个.py文件放置的路径有什么讲究吗？我这边放置了两个路径都报错，一个放在了该workflow路径下，报错找不到该文件夹，一个放在我自己建立的普通目录下，也报错
AUC & GAUC
lj1547869435: 我看错了，对不起
AUC & GAUC
lj1547869435: 计算auc有问题吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。