CUDA~Shared memory

whaosoft143

已于 2024-07-19 16:06:54 修改

阅读量479

点赞数 4

分类专栏：人工智能文章标签：人工智能

于 2024-05-13 09:10:45 首次发布

本文链接：https://blog.csdn.net/qq_29788741/article/details/138784740

版权

最近遇到了一个问题，拷贝数据的时候经过shared memory的带宽会快于没有经过shared memory，使用shared memory的具体代码如下，拷贝的数据大小是4096 * 4096个double数据（128MiB），blocksize是（1024，1，1），gridsize是（4096*4096/1024/2，1，1）。

// blocksize=(1024，1，1), gridsize=(4096*4096/1024/2，1，1)
__global__ void copySheme(double * MatA,double* MatB)
{
  __shared__ double tile[1024*2];
  size_t idx=threadIdx.x+blockDim.x * blockIdx.x * 2;

  tile[threadIdx.x]=MatA[idx];
  tile[threadIdx.x+blockDim.x]=MatA[idx+blockDim.x];

  MatB[idx]=tile[threadIdx.x];
  MatB[idx+blockDim.x]=tile[threadIdx.x+blockDim.x];
}

没有使用shared memory的代码如下，此时，blocksize和gridsize不变。

// blocksize=(1024，1，1), gridsize=(4096*4096/1024/2，1，1)
__global__ void copyRow(double * in,double * out)
{
  size_t idx

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

whaosoft143

关注关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CUDA 共享内存

doublewei的专栏

06-06

1256

GPU设备中的共享内存比全局内存访问效率高，一种借助共享内存的通用办法是，数据分块之后，将一个线程块中需要从全局内存中读取的数据全部读到共享内存中，然后线程块中的所有线程在执行时，只需要读取共享内存即可。共享内存中所谓的共享是对线程块而言，也就是说同一个线程块中的所有线程共享这块内存。为了使得一个wrap中的线程可以在同一个时刻并行访问共享内存，共享存储器被组织成了32个bank，每个bank有4字节。共享内存访问有bank 冲突问题，一个wrap中存在多个线程同时访问同一个bank的数据，则称为b

CUDA 查询本机共享内存大小

KarlSzp

06-19

3772

1 基本流程使用cuda预实现的sample程序 deviceQuery 查询本机设备（显卡）信息利用grep抓取 shared字样查询共享内存大小 2 操作步骤环境：Ubuntu 18.04， win系统可利用everything等索引搜索找到deviceQuery.exe 定位deviceQuery$ locate deviceQuery 选用/usr/local/cuda-10.2/samples/bin/x86_64/linux/release/deviceQuery$ /usr/l

2 条评论您还未登录，请先登录后发表或查看评论

cuda学习(4)：共享内存

@bangbang的博客

10-04

2802

共享内存因为更靠近计算单元，所以访问速度更快共享内存通常可以作为访问全局内存的缓存使用，比如全局内存有一块内存你会经常访问使用的话，如果每次都到全局内存去拿效率相对比较低，这个时候可以考虑先搬到共享内存中，然后再共享内存中频繁访问，这样效率就会高很多。利用共享内存实现线程间的通信共享内存通常与__syncthreads同时出现，这个函数时同步block内的所有线程，全部执行到这一行才会往下走。

NVSHMEM介绍、InfiniBand GPUDirect、和NVshmem使用案例说明

最新发布

爱串门的小马驹博客

03-11

1910

NVIDIA NVSHMEM 是基于 NVIDIA 的“共享内存”库，它提供了一个易于使用的 CPU 端接口，用于分配对称分布在 NVIDIA GPU 集群中的固定内存。。是NVIDIA提供的一种并行编程接口，专为NVIDIA GPU集群设计，以实现高效且可扩展的通信。NVSHMEM基于OpenSHMEM规范，为跨越多个GPU内存的数据创建了全局地址空间，支持GPU间的数据共享和并行计算。

cuda共享内存

一只笨蛋的博客

11-21

1124

【代码】cuda共享内存。

CUDA shared memory

kiwi's garden

03-23

3837

原文来自CUDA C programming guide shared memory在片上，因此比local memory与global memory快得多。 To achieve high bandwidth, shared memory is divided into equally-sized memory modules, called banks, which can be a

CUDA: 使用shared memory

a130737的专栏

03-11

8572

CUDA 的thread本身是有层次结构的。 thread 被grouped成多个thread blocks。同一个block 的threads 在同一时间，运行在同一个SM上。每一个block都有一个shared memory，是被这个block内的所有的thread所共享的。一个SM一次最多只能运行8个blocks。我们知道， global memory, texture me

cuda配置shared memory size流程

09-24

CUDA共享内存（Shared Memory）是在GPU内的一种高速缓存区域，用于在同一块计算块（Block）内的线程之间共享数据。配置共享内存大小通常涉及到以下几个步骤： 1. **理解需求**：首先确定你的并行计算任务需要哪些...

CUDA入门课程笔记【02 CUDA Shared Memory】

cfeng2302的博客

01-01

371

CUDA共享内存

cuda shared memory

09-10

CUDA共享内存（shared memory）是指在CUDA程序中使用的一种特殊的内存空间。它是GPU上的一块高速、低延迟的内存，被用来在同一个线程块（thread block）中的线程之间进行数据共享。与全局内存相比，共享内存的访问...

CUDA核函数share memory

wenxuegeng的专栏

10-14

2563

标签： CUDAExample

GPU求矩阵中最大值 sharedmemory共享内存

06-27

GPU求矩阵中最大值 sharedmemory共享内存

CUDA共享内存详解

MAX的专栏

06-19

1533

对于CUDA，一个grid 有多个Block 块，一个block块多个线程。共享内存只是Block 块内的线程共享，不同Block块之间的共享内存是不会共享的。shared。

CUDA C编程（十一）CUDA共享内存概述

AAAA202012的博客

12-31

4968

GPU有两种类型的内存：板载内存以及片上内存。其中全局内存是较大的板载内存，具有相对较高的延迟。共享内存是较小的片上内存，具有相对较低的延迟，并且共享内存可以提供比全局内存高得多的带宽。可以把它当作一个可编程管理的缓存，共享内存通常的用途有：块间线程通信的通道；用于全局内存数据的可编程管理的缓存；高速暂存存储器，用于转换数据以优化全局内存访问模式。共享内存共享内存分配共享内存存储体和访问模式配置共享内存量同步 ...

CUDA ---- Shared Memory

weixin_30822451的博客

06-28

497

CUDA SHARED MEMORY shared memory在之前的博文有些介绍，这部分会专门讲解其内容。在global Memory部分，数据对齐和连续是很重要的话题，当使用L1的时候，对齐问题可以忽略，但是非连续的获取内存依然会降低性能。依赖于算法本质，某些情况下，非连续访问是不可避免的。使用shared memory是另一种提高性能的方式。 GPU上的memory有两种： · On...

CUDA编程第五章: 共享内存&常量内存

Janus

02-16

7262

本章大概50页, 2天之内看完前言: 本章内容：了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中, 已经介绍了几种全局内存的访问模式. 通过安排全局内存访问模式, 我们学会了如何实现良好的性能并且避免了浪费事务. 未对齐的内存访问是没有问题的, 因为现.

CUDA入门学习（三）:共享内存与线程同步

爱吃花生的晃晃

06-18

3368

共享内存实际上是可受用户控制的一级缓存。每个SM中的一级缓存与共享内存共享一个64KB的内存段在开普勒架构的设备中，根据应用程序的需要，每个线程块可以配置为16KB的一级缓存或共享内存。而在费米架构的设备中，可以根据喜好选择16KB或者48KB的一级缓存或者共享内存。早期费米架构中只有固定的16KB共享内存而没有一级缓存。共享内存的延迟极低，大约有1.5TB/s的带宽，远远高于全局内存的190GB

CUDA学习(九)：共享内存

hjxu2016的博客

11-18

3308

转自 CUDA学习笔记(6) 共享内存与全局内存共享内存（Shared memory）是位于每个流处理器组（SM）中的高速内存空间，主要作用是存放一个线程块（Block）中所有线程都会频繁访问的数据。流处理器（SP）访问它的速度仅比寄存器（Register）慢，它的速度远比全局显存快。但是他也是相当宝贵的资源，一般只有几十KByte。全局显存（Global memory）的大小比共享显存（Shared memory）大了几个数量级。当然，共享显存的访问速度也一定比全局显存快。再从硬件上看：

CUDA学习笔记(6) 共享内存与全局内存