论文阅读（第二部分）：Full Stack Optimization of Transformer Inference: a Survey

最新推荐文章于 2025-05-14 10:23:29 发布

PEAKKIZZA

最新推荐文章于 2025-05-14 10:23:29 发布

阅读量987

点赞数 24

分类专栏：大模型文章标签：论文阅读 transformer

本文链接：https://blog.csdn.net/peakkizza/article/details/135888691

版权

本文调查了Transformer模型的全栈优化，重点关注算术强度在端到端推理中的作用。算术强度决定了计算和内存带宽的关系，高算术强度模型即使在FLOPs较少的情况下也能运行得更快。文章发现，解码器模型的算术强度较低，导致内存受限而非计算受限，这影响了端到端延迟。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读（第二部分）：Full Stack Optimization of Transformer Inference: a Survey

原文链接：https://arxiv.org/pdf/2302.14017.pdf

模型分析

1.3.1 负载分析

端到端的浮点运算：

floating-point operations (FLOPs)
- 它可以通过将FLOPs总数除以访问的字节总数(也称为MOPs，或内存操作)来计算。
  $Intensity=\frac{FLOPs}{MOPs}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PEAKKIZZA

关注关注

24
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大模型推理 & memory bandwidth bound (1) - 性能瓶颈与优化概述

daihaoguang的博客

11-11

2641

随着大模型参数量的增加，其推理加速成为一个重要的研究方向。比如我们在vLLM系列中有讲到，vLLM在内存（显存）管理上使用了技术，再结合的调度策略，大大提高了在面对多个请求时GPU的使用率，这种系统层级上的优化提高了吞吐，降低了延迟。大模型推理之所以低效，主要是因为自回归解码过程受到内存带宽限制（在解码阶段，模型需要频繁从内存中读取和写入数据，而内存带宽又比较有限，因此有较高的延迟。为了突破该性能瓶颈，出现了各种有意思的工作，比如系列、以及MEDUSA等等。

AI模型在专用加速器上的性能分析指标

Briwisdom的博客

01-04

1884

AI模型在专用加速卡上性能分析大概流程： 1）先计算模型本身的计算访存比，得到模型理论算力带宽需求。 2）根据处理器本身支持的操作字节比（算力，带宽），确认模型在该处理器上的性能表现类型。 3）根据专用加速器内部架构的内存和计算并行性的设计，分析AI模型运行时的schedule，估算得到模型在加速卡上的执行周期。

1 条评论您还未登录，请先登录后发表或查看评论

Roofline模型（一）：概念、基本公式、图像分析

sinat_35360418的博客

01-13

1万+

并行计算Roofline性能分析

并行计算课程总结（hdu）

packdge_black的博客

07-08

2969

仅供学习使用。 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 1. Why does computational science need high-performance computers? To obta

大型语言模型推理详解

m0_59163425的博客

08-24

1826

我们了解到选择KV缓存会带来额外的挑战。多头注意力（MHA）模型的KV缓存确实会消耗大量GPU内存，大约每token约1MB，并且很容易比模型权重更大。鉴于GPU内存有限，KV缓存内存压力促使各种倡议朝不同方向发展：新颖的注意力架构（如MQA、GQA、SWA）、缓存压缩策略（如H2O、Scissorhands、FastGen）、高效的内存管理（如PagedAttention、RadixAttention）、以及量化和存储容量扩展（如负载系统、单主机和多主机模型并行）。

论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey

peakkizza的博客

01-30

993

虽然结构化剪枝可以在没有额外硬件支持的情况下提供内存、能耗和延迟等方面的好处，但众所周知，它比非结构化剪枝获得更低的压缩率,激活修剪裁剪掉了推理过程中的冗余激活，对于Transformer模型尤其有效。在某些情况下，量化也使得在仅有整数的硬件单元中部署DNN模型成为可能，否则可能是不可能的，或者可能会为卸载片外的非整数操作带来相当大的开销。特别是，必须特别考虑量化没有精度下降的。**对MHA和FFN模块使用单独的数据通路可以具有更高的面积开销，但与对这两个模块使用单一的数据通路相比，可以实现更积极的优化。

论文阅读（第一部分）：Full Stack Optimization of Transformer Inference: a Survey

peakkizza的博客

01-26

1080

and **passes it through multiple Transformer encoder blocks,***并且提取输入的序列的高级别特征，这些提取的特征之后进入decoder，它负责为目标语言生成tokens，这是基于encoder的源语言特性以及它之前生成的tokens。要将此操作与前面的matmul操作融合，在写出结果之前必须在reduction维度上累积整个输出矩阵（计算均值和方差的维度），这倒是不规则的tiling维度和更低的数据重用。，需要专门的支持或片外计算。

论文阅读（第三部分）：Full Stack Optimization of Transformer Inference: a Survey

peakkizza的博客

01-29

948

但是，shared memory 中的每个元素都别使用了 16 次，从而使总的 global memory 访问量减少 16 倍，变为 2 x 32 x 32 x 32 / 16 ，Computation-to-memory ratio 为 4 (flop/byte)，比之前提高了 16 倍。这种技术在设计阶段特别有用，因为在设计阶段，对实际硬件的剖析可能是困难的，但为了做出设计决策，分析是必要的我们提供了使用解析建模来获得延迟崩溃和非理想算术强度的例子。**是一种专门用于特定应用领域的集成电路。

体系结构论文（五十五）：Full Stack Optimization of Transformer Inference

欢迎交流！

10-06

1326

Transformer模型被广泛应用于各种任务，如计算机视觉自然语言处理语音识别等，原因是它们的准确度很高。然而，这些模型的复杂性和规模不断增加，导致它们在推理阶段需要大量的计算资源和带宽，特别是在那些对延迟敏感的应用场景中，部署这些模型变得非常困难。

LLM 推理优化探微 (1) ：Transformer 解码器的推理过程详解

huang9604的博客

05-13

1406

在本系列博文中，我将带领各位读者深入探讨 LLM 推理的各方面知识以及实践中可能面临的挑战。

MagicDec: LLM 长序列、大 Batch 投机采样 2 倍推理加速

m0_59235699的博客

08-30

1865

LLM 在交互式聊天机器人、文档分析和 Agent 工作流等长上下文应用中变得越来越普遍，但以低延迟和高吞吐服务长上下文请求却很有挑战。投机解码（Speculative Decoding，SD）是一种广泛采用的技术，可以在不牺牲性能的情况下减少延迟，但传统观点认为，它的功效仅限于小 Batch Size（PS：其实大家说的是在常规序列长度下 SD 只适合小 Batch Size）。

CUDA系列学习（四）Parallel Task类型与 Memory Allocation

热门推荐

Rachel Zhang的专栏

02-03

1万+

本文为CUDA系列学习第四讲，首先介绍了Parallel communication patterns的几种形式（map, gather, scatter, stencil, transpose）, 然后复习了cuda memory model并从high level上分析怎样写出高效代码，最后学习了流程控制（control flow）以及其中一个重要部分——原子操作。参考资料：udacity cs344.

Roofline模型初步

宋宝华

04-27

2911

在多核异构的时代，软件人员普遍面临的一个困惑是，面对如此复杂的系统，应该如何部署我们的算法，是应该让它运行在CPU，GPU还是甚至类似TPU的专门ASIC上才是最佳方案？另外给定特定的计算...

如何让深度学习模型更高效地运行

weixin_39326879的博客

05-20

1084

基本概念： 1.FLOPS：每秒可执行的浮点型操作，是一个衡量计算机性能的指标 2.Nas:Neural architecture search,神经网络架构搜索，是一种自动设计人工神经网络的技术，在大数据集上搜索所化的时间非常漫长，3.NAS与超参数优化密切相关，是自动机器学习（AutoML）的一个子领域。 4.强化学习：强化学习不同于监督学习，不需要明确的输入和标签，还是在与环境的交互过程中获得奖励和惩罚的信号，这适用于一些很难打标签的场景，因为有一些问题是没有标准答案的 ...

深度可分离卷积_深度可分离卷积性能研究

weixin_39541681的博客

12-17

3353

对比普通卷积和深度可分离卷积FLOPs，在不同硬件平台下对比计算强度，实测训练和工程部署的精度和计算量。深度可分离卷积(简写 DepSep Conv)已经被证明了可以作为传统卷积的有效代替方案，并且已经成熟地应用在了很多模型中，例如非常有实际工程意义的两个网络MobileNet[1]和EfficientNet[2]。使用深度可分离卷积的网络相比传统卷积网络，具有较少的参数，并且在浮点运算...

cuda 学习 | GPU硬件与并行通信模式

Yan_Joy的博客

03-31

4512

通信方式通信方式主要以课程截图为主……Map 这是一种一一对应的方式。Gather 多对一的方式。Scatter 一对多的方式。Stencil 模板，多对多的方式。图中左中为输入，左下为输出，不同颜色为不同线程的读取、输出位置。Transpose 转置操作，改变形状、顺序等。进行合理的顺序改变在数据读取速度上会提升速度。GPU结构从大到小来说，结构为： Kernel -》 B

CUDA编程基础与实践学习笔记（五）

zkxhlbt的博客

04-18

710

5.1 CUDA事件计时 https://blog.csdn.net/qq_24990189/article/details/89602618 注意，从这里之后的代码都要用CHECK来检查runtime API的错误。一个例外：cudaEventQuery()，这个函数可能返回的是cudaErrorNotReady,并不代表真的错了。计时的步骤：先定义两个cudaEvent_t变量，并初始化事件，然后开始record。第五行要query一下事件队列。很容易记忆，都是成对的操作。这里既可以是hos

[论文阅读]ControlNET: A Firewall for RAG-based LLM System

m0_52911108的博客

05-13

1089

RAG存在数据泄露风险和数据投毒风险。相关研究探索了提示注入和投毒攻击，但是在控制出入查询流以减轻威胁方面存在不足文章提出一种ai防火墙CONTROLNET，保护基于RAG的LLM系统免受这些漏洞的侵害利用激活转移现象检查恶意查询，通过语义差异来减轻影响从而控制查询流数据泄露风险源于恶意客户端进行侦察以提取系统提示或利用 RAG 系统环境。

多模态论文笔记——NaViT