
llm推理相关
我们知道llm推理是个自回归过程,所以模型会迭代地输入一个序列,采样下一个token,将该token附加到输入序列中,并继续此过程,直到LLM生成一个表示生成结束的token。(7)gpu加速和缓存,这其中注意力计算会占用很大的计算资源,尤其在多头注意力和长序列输入过程中,因此llm会利用gpu进行并行计算,在gpu内存中缓存query,key和value等矩阵提高计算效率。然后在gpu的支持下llm会逐步生成输出,每次生成一个token后,这个token会作为输入再次输入到llm中。这里的IO开销很大。

























