论文:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
更详细内容直接看原文!!!
摘要
Multi-query attention(MQA)只使用一个键值头,大大加快了解码器推理。然而,MQA可能导致质量下降,而且不为了更快的推断而训练一个单独的模型。我们提出了一个方法,
-
将现有的多头语言模型检查点升级成MQA模型,
-
引入分组查询注意(GQA),一种多查询注意的泛化,使用一个中间(多于一个,少于查询头数量)的键值头。
我们表明,向上训练的GQA以接近MQA的速度达到接近多头注意力的质量。
导言
自回归解码器推理是Transformer模型的一个严重瓶颈,因为加载每个解码器权值和所有注意键和值的内存带宽开销。通过multi-query attention,可以显著降低加载keys和values的内存带宽,它使用多个query头,但使用单个keys和values头。然而,multi-query attention(MQA)可能会导致质量下降和训练不稳定,而训练针对质量和推理进行优化的单独模型可能是不可行的。此外,虽然一些语言模型已经使用了multi-query attention,如PaLM,但许多语言模型并没有使用,包括公开可用的语言模型,如T5和LLaMA。
这项工作包含了对使用大型语