CUDA访存优化(1)

CUDA程序优化不仅关注计算部分,访存优化同样关键。了解GPU内存架构,如寄存器、全局内存、局部内存、常量内存、共享内存、纹理内存、L1及L2缓存的特性,有助于实现更高效的CUDA代码。例如,寄存器为片上低延迟存储,全局内存访问有较高延迟,而共享内存提供低延迟和高带宽。
摘要由CSDN通过智能技术生成

CUDA访存优化(1)

  • 我们知道,在对CUDA程序进行优化的时候,除了计算部分的优化之外,访存部分的优化也是非常重要。因此,我们需要深入了解NVIDAI GPU的内存架构,然后做相应的访存优化。

latency:延迟
off-chip:片外
on-chip:片内, 片内指的是在SM(多流处理器)上
lauch kernel:运行并行程序


  • CUDA的内存结构
    • register,寄存器堆
    • global memory,全局内存
    • local memory,局部内存
    • constant memory,常量内存
    • shared memory, 共享内存
    • texture memory, 纹理内存
    • L1 Cache,L1 缓存
    • L2 Cache,L2 缓存

  • register
    • 特点
      • on-chip,最低的 latency
  • global memory
    • 特点
      • off-chip,高lat
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值