大模型基架：Transformer如何做优化？

最新推荐文章于 2025-03-02 01:30:00 发布

Briwisdom

最新推荐文章于 2025-03-02 01:30:00 发布

阅读量1.3k

点赞数 10

分类专栏：大模型文章标签： transformer 深度学习人工智能 LLM 图优化分布式并行矩阵乘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010420283/article/details/139457067

版权

大模型的基础模式是transformer，所以很多芯片都实现先专门的transformer引擎来加速模型训练或者推理。本文将拆解Transformer的算子组成，展开具体的数据流分析，结合不同的芯片架构实现，分析如何做性能优化。

Transformer结构

transformer结构包含两个过程，Encoder和Decoder。其中Decoder较Encoder结构相同，多了对于kv_cache的处理。

如下图经典的结构示意图，可以看到在Decoder阶段的Multi-Head Attentiond的三个输入箭头其中两个来自Encoderde输出，关于kv-cache对内容管理的优化也是一个很重要的研究方向。本文暂时重点关注与Transformer的Encoder阶段的优化分析。

Transformer的数据流图

下图对应上面transformer的左边Encoder阶段。不同颜色表示不同的算子，其中linear, 其实也是一种matmul算子，只不过它的两个输入一个来自tensor, 一个来自常量。蓝色标记的matmul算子则两个输入全部是tensor。

包含的算子为：linear, matmul, transpose, softmax, add_layernorm。

通过代入参数，了解具体的数据流执行过程，可以让我们更加直观的理解下面的优化之后，得到相同的输出数据的思路。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Briwisdom 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。