Triton矩阵乘以及缓存优化

黯止依蓝

已于 2024-10-11 16:44:58 修改

阅读量757

点赞数 6

文章标签：矩阵线性代数

于 2024-06-17 10:07:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kongxiangyunltj/article/details/139723840

版权

假设所需要计算的block一共是81，我们试图以第二种计算顺序来计算，因为这样占总缓存的大小小，缓存命中率高。

这里grid=一个标量，所以是一维的。

形如M*N的矩阵，被分解为很多个BLOCK_SIZE_M*BLOCK_SIZE_N的小矩阵，小矩阵的数量为grid = triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N'])

观察函数内部

pid = tl.program_id(axis=0)，因为grid是一维的，所以这里就是当前块是总块数里的哪一块，可以理解为一共81个block任务，是第几个任务。

我们假设实际A*B=C，

triton.cdiv(574,64) = 8.9向上取整数 = 9

A，B形状是574*574，分小块的形状是64*64，这样一共有9*9 = 81块，pid就是0~80，

这里用574/64=9,所以num_pid_m和num_pid_n都是9

num_pid_in_group = GROUP_SIZE_M * num_pid_n，算的是一个组有多少块，这里假设是3*9，所以一组27块，这里的组应该是人为划定的，因为算一个矩阵c的元素，需要用到a矩阵的一列，和b矩阵的一行，所以分组基于 num_pid_n，然后再选择几行。

group_id = pid // num_pid_in_group算组id，一组27个小块，当前pid//27就得到所在组id，比如30//27=1,说明30块在组1。

first_pid_m = group_id * GROUP_SIZE_M，每一组的第一个块在结果矩阵中是第几行。

因为数据不一定能整除，最后一个组可能少几行。这里group_size_m,算的是当前组一共几行。

group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)

pid_m = first_pid_m + (pid % group_size_m)
    pid_n = (pid % num_pid_in_group) // group_size_m

这两行做映射，是关于pid和结果矩阵中块位置的映射。

这里官网更新之前的代码是错误的，pid%group_size_m得到的并不是当前所在计算块相对于组的行数。这样在最后一行填不满的情况下计算会错误，实际上的代码应该是

first_pid_m +（pid%num_pid_in_group）%group_size_m

行坐标=当前组第一个块的行位置+pid%每组行数，pid%3知，pid三个三个一排，也就是算的当前pid在当前组里相对是第几行，比如如果是4，4%3=1，可知pid=4在当前组第一行（0，1，2），那么pid%每组行数就可以相对整组位移，最终可以知建立pid和c矩阵中行位置的映射

假设pid = 29，属于 29/27 ->组1，组1的第一个块的行是1*3 = 3，pid%3 = 2 ，所以可以得到在总的分块里，pid = 29 <----> pid_m = 3+2 = 5。

列坐标=pid%每组总数//每组行数，pid%每组总数可知当前组还剩下几个block，也就是27块中的第几块，比如29%27就会得到2，然后2//3=1就知道在第几列了，

所以pid的对应关系就和上图的一样的顺序对应。

这里比如想要计算块pid=4，那么就需要拿到A的第一行和B的第一列，坐标为(1,1)

这里各自会得到一个二维矩阵，里面的指针值就是所指向的元素位置，这里只是第一块

假设计算结果矩阵中的(1,1)位置的块，

offs_am = (1*64+[0,63])%746 = [64,127]

offs_k = [0,63]

可以想象的要做的事情是生成一个指针矩阵a_ptrs，其中的指针分别指向对应的A小块的数据元素，再次基础上迭代，就可以要计算的C矩阵1，1位置的block，

offs_am代表对应加载的a矩阵的那一行的第一块的每一行，在原来的a矩阵里的偏移

offs_am = (1*64+[0,63])%746 = [64,127]

这个数字乘以a矩阵的步数，就是从起始地址转到这一行，指针所需要的偏移量

假设起始指针地址是0，那么调到64行需要加64*stride_am指针偏移量

stride_am的意思是说，对于a矩阵，从(m,n)到(m+1,n)需要跨过的元素数量，其实就是n

这样就得到

[a_ptr+64*stride_am,a_ptr+65*stride_am,...,a_ptr+127*stride_am]T(转置，这是一个列向量)

为了得到小方块的所有指针偏移，需要二位扩展，a_ptr+x*stride_am相当于每一行的首地址，往左边一个元素，就是offs_k*stride_ak = [0,63]*1= [0,63],对于a矩阵，stride_ak是1，因为(m,n)到（m,n+1）只需要跨过一个元素

所以最终，我们可以得到这一套的指针矩阵

[a_ptr+64*stride_am,a_ptr+64*stride_am+1,...a_ptr+64*stride_am+63]

[a_ptr+65*stride_am,a_ptr+65*stride_am+1,...a_ptr+65*stride_am+63]

...

[a_ptr+127*stride_am,a_ptr+127*stride_am+1,...a_ptr+127*stride_am+63]

b矩阵的加载同理。

这里就好理解了，每次加载所需要二位矩阵块A和B对应数据，迭代乘累加

博客等级

码龄5年

120
原创

769
点赞

649
收藏

543
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

gpu模拟器参数传入
满目山河都是你: 请问这是用的什么项目进行开发的？开源的话想学习学习
Triton矩阵乘
卢震波: 如果k维度非常大，一个块任务的迭代次数过多，会导致计算资源浪费在迭代上，所以这种情况下需要对k进行切分，也就是增加一个维度的分块，也就是改变grid。本质上就是比如原来计算0块是一个块任务，现在分为两个块任务去计算，最后结果在累加。因为这里两个计算任务会往一个结果空间去写，所有有相关的同步机制。
Triton矩阵乘以及缓存优化
黯止依蓝: 抱歉哥们，这是之前学习记录随便写的，写错了，这里都是9，然后我现在重新修改了原来一些地方，现在理解应该是对的，原文可以去看知乎董鑫大佬的
Triton矩阵乘以及缓存优化
chentb1990: 这里用574/64=9,所以num_pid_m和num_pid_n都是81 这句话是啥意思呢
在linux上使用vs调试代码
CSDN-Ada助手: 恭喜您写了第6篇博客！标题看起来非常有趣和实用。在Linux上使用VS调试代码对于许多开发者来说可能是一个需要解决的难题。您的博客无疑能够为大家提供非常有用的指导和技巧。我非常期待阅读您的这篇博客，并从中学到更多关于在Linux上使用VS调试代码的方法。同时，我建议您在未来的创作中，可以探讨一些更加深入的主题，例如如何优化调试过程或者如何处理特定类型的错误。谢谢您的分享！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。