论文阅读(第二部分):Full Stack Optimization of Transformer Inference: a Survey

本文调查了Transformer模型的全栈优化,重点关注算术强度在端到端推理中的作用。算术强度决定了计算和内存带宽的关系,高算术强度模型即使在FLOPs较少的情况下也能运行得更快。文章发现,解码器模型的算术强度较低,导致内存受限而非计算受限,这影响了端到端延迟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文阅读(第二部分):Full Stack Optimization of Transformer Inference: a Survey

原文链接:https://arxiv.org/pdf/2302.14017.pdf

模型分析

  • 1.3.1 负载分析

    端到端的浮点运算:

    floating-point operations (FLOPs)

    • 它可以通过将FLOPs总数除以访问的字节总数(也称为MOPs,或内存操作)来计算。
      A r i t h m e t i c I n t e n s i t y = F L O P s M O P s Arithmetic Intensity=\frac{FLOPs}{MOPs} Arithmet<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值