如图所示,为 llama 中一个llamalayer或一个llamadecoder的计算流程,其中标注了每一个Tensor的shape。
1)浅黄色(比如,K,Q,V等),表示计算输出
2)黄色的casual mask表示 mask 的Tensor(FP32格式)
3)灰黄色+斜纹(比如X1,X2等),表示反向计算时需要用到的Tensor(activation)
4)其它,表示计算操作,有的操作有权重,有的操作没有权重
5)右下方给出了 activation 的空间占用,及由此推出的 llama 模型在各种情况下的空间占用(中间变量activation)
llama decoder流程一图解释及activation空间占用
于 2024-02-19 17:18:28 首次发布