bert深度优化

s.feng

已于 2022-08-25 14:34:17 修改

阅读量517

点赞数

分类专栏： CUDA编程文章标签： c++ 人工智能

于 2022-08-15 19:39:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feng__shuai/article/details/126353405

版权

CUDA编程专栏收录该内容

33 篇文章 14 订阅

订阅专栏

背景

在当下cv, nlp领域，一般都会使用attention结构，对attention的优化就显得额外重要，这边文章就nvidia对attention的优化策略进行分析。

相关知识

PTX指令

因为这里我们需要利用到一些PTX指令，所以简单做一点介绍：

        asm volatile( \
            "mma.sync.aligned.m16n8k16.row.col.f32.f16.f16.f32 \n" \
            "    {%0, %1, %2, %3}, \n" \
            "    {%4, %5, %6, %7}, \n" \
            "    {%8, %9}, \n" \
            "    {%0, %1, %2, %3}; \n" \
                    : "+f"(  elt(0)), "+f"(  elt(1)), "+f"(  elt(2)), "+f"(  elt(3))
                    :  "r"(a.reg(0)),  "r"(a.reg(1)),  "r"(a.reg(2)),  "r"(a.reg(3))
                    ,  "r"(b.reg(0)),  "r"(b.reg(1)));

上面是一段矩阵乘加的ptx代码，计算公式是D(16x8) = A(16x16) * B(16x8) + C(16*8)。具体解释如下：（一个寄存器可以存一个fp32）

mma.sync.aligned.m8n8k4.alayout.blayout.dtype.f16.f16.ctype d, a, b, c;

矩阵A，数据类型是.fp16, 一个向量表达式中包含4个寄存器，也就是4个fp16 *2
矩阵B，数据类型是.fp16, 一个向量表达式中包含2个寄存器，也就是2个fp16 *2
矩阵C，数据类型是.fp32, 一个向量表达式中包含4个寄存器，也就是4个fp32
矩阵D，数据类型是.fp32, 一个向量表达式中包含4个寄存器，也就是4个fp32
nvidia的文档链接：Matrix Shape, PTX ISA reference

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bert深度优化

在当下cv, nlp领域，一般都会使用attention结构，对attention的优化就显得额外重要，这边文章就nvidia对attention的优化策略进行分析。
复制链接

扫一扫

专栏目录

s.feng CSDN认证博客专家 CSDN认证企业博客

码龄8年

189: 原创

3万+: 周排名

8517: 总排名

31万+: 访问

: 等级

3905: 积分

242: 粉丝

491: 获赞

97: 评论

1006: 收藏

私信

关注

热门文章

分类专栏

最新评论

float32转float16
薛文旺: gpu上如何转
End-to-End Object Detection with Transformers[DETR]
April_Mon_7788: 作者也不了解query_embed:?这个吗
float32转float16
ld2365: float16_t为啥我树莓派用不了这个类型
C++中的通俗理解左值，右值，左值引用，右值引用
人生有味是清欢: 老哥，你太牛了，从来没有看到如此清晰的解释
内存对齐问题
cqutlqxjy: 楼主可以看一下下面这个程序吗: #include <stdio.h> struct jd { char a[98]; }; struct jd2 { char a; struct jd jd_1; }; int main() { printf( "%d\n", sizeof(struct jd ) ); printf( "%d\n", sizeof(struct jd2 ) ); } 按理来说struct jd2 大小应该是其中max和默认对齐系数的最小值。也就是98和对齐系数的最小值。那就是对齐系数。这个对齐系数不同文章有不同说法，但是都是4或者8.结果运行这个程序显示struct jd2 大小是99,既不是4也不是8的倍数,

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。