CUDA笔记2

1、培训003

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
生成线程,每个线程处理哪些数据呢?如右图,0-47共48个数,申请48个线程,需找到每个元素在所有线程的坐标。即一维的坐标,下面展示二维的坐标
例子:矩阵相乘
在这里插入图片描述
申请很多个thread,每个thread处理P矩阵中的一个元素。P当中有多少个元素,就申请多少个thread,每个线程读取一行,一列。
在这里插入图片描述
threadIdx.x和threadIdx.y分别是2和0
blockIdx.x和blockIdx.y分别是1和1,因为(1,1)
在这里插入图片描述
在这里插入图片描述

2、培训004

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
矩阵AB保存在全局存储中,每个thread读取一行,或一列,问那个更快?

在这里插入图片描述
列快,因为T0、T1、T2、T3是按顺序读取即可

(1)如何优化矩阵乘?

(1)共享存储
在这里插入图片描述
在这里插入图片描述
常用的两个功能:数据交换的时候(两个正方形),当一个临时buffer(圆);很多次需要从全局存储(矩形)读取数据,可以先把数据放到共享存储(圆)中。
在这里插入图片描述
bank冲突的定义:同一个warp中的线程访问同一个bank中的不同地址,如图同一个warp中的thread0和thread8访问同一个bank0的不同地址
解决办法:
在这里插入图片描述
如图,每个bank有很多小格,代表不同地址。同一个warp的thread访问的是不同bank,也就避免了。
在这里插入图片描述
在这里插入图片描述
只需加一列,然后错位就行了。
矩阵优化:
在这里插入图片描述
参考链接:
https://www.bilibili.com/video/BV1dq4y1k7RD?p=1
https://www.bilibili.com/video/BV17T4y117vK?p=1
《NVIDIA-CUDA-冬令营》

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值