论文阅读(第二部分):Full Stack Optimization of Transformer Inference: a Survey
原文链接:https://arxiv.org/pdf/2302.14017.pdf
模型分析
-
1.3.1 负载分析
端到端的浮点运算:
floating-point operations (FLOPs)
- 它可以通过将FLOPs总数除以访问的字节总数(也称为MOPs,或内存操作)来计算。
A r i t h m e t i c I n t e n s i t y = F L O P s M O P s Arithmetic Intensity=\frac{FLOPs}{MOPs} Arithmet<
- 它可以通过将FLOPs总数除以访问的字节总数(也称为MOPs,或内存操作)来计算。