CUDA笔记2

最新推荐文章于 2024-07-25 14:12:59 发布

tensor.shape

最新推荐文章于 2024-07-25 14:12:59 发布

阅读量357

点赞数 9

分类专栏： CUDA 文章标签：笔记

本文链接：https://blog.csdn.net/qq_44576434/article/details/135728880

版权

CUDA 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、培训003

在这里插入图片描述

生成线程，每个线程处理哪些数据呢？如右图，0-47共48个数，申请48个线程，需找到每个元素在所有线程的坐标。即一维的坐标，下面展示二维的坐标
例子：矩阵相乘

申请很多个thread，每个thread处理P矩阵中的一个元素。P当中有多少个元素，就申请多少个thread，每个线程读取一行，一列。
在这里插入图片描述
threadIdx.x和threadIdx.y分别是2和0
blockIdx.x和blockIdx.y分别是1和1，因为(1,1)

2、培训004

在这里插入图片描述

矩阵AB保存在全局存储中，每个thread读取一行，或一列，问那个更快？

在这里插入图片描述
列快，因为T0、T1、T2、T3是按顺序读取即可

（1）如何优化矩阵乘？

（1）共享存储
在这里插入图片描述

常用的两个功能：数据交换的时候（两个正方形），当一个临时buffer（圆）；很多次需要从全局存储（矩形）读取数据，可以先把数据放到共享存储（圆）中。

bank冲突的定义：同一个warp中的线程访问同一个bank中的不同地址，如图同一个warp中的thread0和thread8访问同一个bank0的不同地址
解决办法：
在这里插入图片描述
如图，每个bank有很多小格，代表不同地址。同一个warp的thread访问的是不同bank，也就避免了。

只需加一列，然后错位就行了。
矩阵优化：

参考链接：
https://www.bilibili.com/video/BV1dq4y1k7RD?p=1
https://www.bilibili.com/video/BV17T4y117vK?p=1
《NVIDIA-CUDA-冬令营》

tensor.shape

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
CUDA笔记2

bank冲突的定义：同一个warp中的线程访问同一个bank中的不同地址，如图同一个warp中的thread0和thread8访问同一个bank0的不同地址。P当中有多少个元素，就申请多少个thread，每个线程读取一行，一列。如右图，0-47共48个数，申请48个线程，需找到每个元素在所有线程的坐标。同一个warp的thread访问的是不同bank，也就避免了。矩阵AB保存在全局存储中，每个thread读取一行，或一列，问那个更快？blockIdx.x和blockIdx.y分别是1和1，因为(1,1)
复制链接

扫一扫

专栏目录