本文是LLM系列文章,针对《SPARQ ATTENTION: BANDWIDTH-EFFICIENT LLM INFERENCE》的翻译。
摘要
生成型大型语言模型(LLM)开辟了许多新的可能性,但由于其重要的计算需求,其普遍使用仍然具有挑战性。一些最有用的应用程序需要一次处理大量样本并使用长上下文,这两种情况都会显著增加模型的内存通信负载。我们介绍了SparQ Attention,这是一种通过选择性提取缓存的历史记录来减少注意力块内的内存带宽需求,从而提高LLM的推理吞吐量的技术。我们提出的技术可以在推理过程中直接应用于现成的LLM,而不需要对预训练设置进行任何修改或额外的微调。我们展示了SparQ Attention如何通过在广泛的下游任务上评估Llama 2和Pythia模型,在不损失准确性的情况下,将注意力-内存带宽需求降低八倍。
1 引言
2 注意力内存转移
3 SPARQ注意力
4 实验
5 相关工作
6 讨论
在这项工作中,我们提出了SparQ Attention,这是一种为预先训练的LLM解锁更快推理的新技术。我们提出的技术