cuda block grid等介绍

最新推荐文章于 2023-08-03 21:35:44 发布

石林徒步全球

最新推荐文章于 2023-08-03 21:35:44 发布

阅读量584

点赞数

分类专栏： Cuda 文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/makeyouclimax/article/details/131002109

版权

Cuda 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这里写目录标题

cuda层次结构
程序架构
层次结构
cuda程序调用
cuda 内置变量
GPU内存模型
- 内存结构
可编程内存

cuda层次结构

在这里插入图片描述

程序架构

在这里插入图片描述

申请内存时是线性的内存，需要知道是按行还是按列排列
设计的好的话内存是对齐的
我们希望线程和内存都是线性排列对齐，效果就会很好。

层次结构

在这里插入图片描述
grid每个维度有多少block
block则是定义每个维度有多少线程

cuda程序调用

在这里插入图片描述

cuda 内置变量

在这里插入图片描述
建立全局一维排序，从而建立宏
从而按照逻辑顺序处理整个向量

处理矩阵的话可以用二维的网格和块

在使用 CUDA 进行矩阵乘法等大规模矩阵计算时，通常需要将输入矩阵按照块的形式划分为多个子矩阵，然后分配到不同的线程块中去计算，以充分利用GPU并行计算的优势。

对于二维的网格和块而言，其可以很好地描述矩阵的结构，这样可以方便地对每个块做相对应的操作。比如，我们可以定义一个2D线程块，其中每个线程块由多个2D线程组成，每个线程处理一个小块或者一个小行/列。然后，我们可以按行、列或元素交错地访问内存，使所有线程能更加高效地并行访问主机内存。

在处理一维向量时，可以考虑将其作为一个一维数组，在代码中可以从全局索引映射到局部索引。在这种情况下，通常需要对齐内存以提升访问速度和性能。具体来说，可以使用 __align__(n) 修饰符来对变量进行对齐处理，将其地址对齐到 n 的倍数上。例如，使用 __align__(16) 可以将变量地址对齐到16字节边界上。

对于单个块的情况，可以使用共享内存来提高访问速度，以便线程块中的所有线程都可以快速、有效地访问它。同时，在使用共享内存时，需要确保线程块中的线程都能够正常读写，以避免竞争条件的发生。

总之，在 CUDA 中处理矩阵和向量时，需要根据任务的具体特点进行灵活选择和处理，以充分发挥GPU并行计算的优势。

GPU内存模型

内存结构

在这里插入图片描述

每个MP都有L1，还有通过L2共享，和全局相连

可编程内存

可读可写

不可编程内存 cpu和gpu自己管理的内存
在这里插入图片描述

内存作用域

线程自己的内存一般都是用完了就释放了
在这里插入图片描述

寄存器

在这里插入图片描述

本地内存

在这里插入图片描述

共享内存

在这里插入图片描述
比方共享32k L1自己的16k

共享内存访问冲突

在这里插入图片描述

有一些优化机制，比如说广播

常量内存

在这里插入图片描述

全局内存

常说的显存，比方说8g 16g
延迟最高，通过l2和mp相连

读的时候有cache 写的时候没有 GPU通过cache大幅度提高效率
在这里插入图片描述

有些数据用不到会降低吞吐量

gpu缓存

在这里插入图片描述
因为这些缓存的存在提前将要读的数据 load，极大提高效率

石林徒步全球

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
cuda block grid等介绍

比如，我们可以定义一个2D线程块，其中每个线程块由多个2D线程组成，每个线程处理一个小块或者一个小行/列。对于单个块的情况，可以使用共享内存来提高访问速度，以便线程块中的所有线程都可以快速、有效地访问它。同时，在使用共享内存时，需要确保线程块中的线程都能够正常读写，以避免竞争条件的发生。在使用 CUDA 进行矩阵乘法等大规模矩阵计算时，通常需要将输入矩阵按照块的形式划分为多个子矩阵，然后分配到不同的线程块中去计算，以充分利用GPU并行计算的优势。申请内存时是线性的内存，需要知道是按行还是按列排列。
复制链接

扫一扫

专栏目录

石林徒步全球 CSDN认证博客专家 CSDN认证企业博客

码龄3年

119: 原创

1万+: 周排名

2万+: 总排名

9万+: 访问

: 等级

1589: 积分

2045: 粉丝

24: 获赞

11: 评论

146: 收藏

私信

关注

热门文章

分类专栏

最新评论

ununtu 20.04 ros neotic pcl报错
晴天615: nice，成功了太感谢了
kinect v2 ubuntu 16.04下配置以及内参标定（笔记2）
新秀老詹: 您好，请问您解决了吗？我也遇到了同样的问题。
kinect v2 ubuntu 16.04下配置以及内参标定（笔记2）
风莳: [ INFO] [Recorder::store] storing frame: 0000 段错误 (核心已转储) 我出现了这个错误怎么解决啊
git入门
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/617074376?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
ubuntu16.04 ros kinect环境下配置为ur3配置ik-fast运动求解器插件（笔记）
A李伟航: 你好，博主，可以付费请教一下怎么在noetic上配置ikfast求解六自由度机械臂的逆解吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。