大模型都在用的GQA是什么

最新推荐文章于 2025-04-15 07:29:35 发布

半度、

最新推荐文章于 2025-04-15 07:29:35 发布

阅读量1.6k

点赞数 11

分类专栏：大模型文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43457608/article/details/138765328

版权

论文：Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

更详细内容直接看原文！！！

摘要

Multi-query attention（MQA）只使用一个键值头，大大加快了解码器推理。然而，MQA可能导致质量下降，而且不为了更快的推断而训练一个单独的模型。我们提出了一个方法，

将现有的多头语言模型检查点升级成MQA模型，
引入分组查询注意（GQA），一种多查询注意的泛化，使用一个中间（多于一个，少于查询头数量）的键值头。

我们表明，向上训练的GQA以接近MQA的速度达到接近多头注意力的质量。

导言

自回归解码器推理是Transformer模型的一个严重瓶颈，因为加载每个解码器权值和所有注意键和值的内存带宽开销。通过multi-query attention，可以显著降低加载keys和values的内存带宽，它使用多个query头，但使用单个keys和values头。然而，multi-query attention（MQA）可能会导致质量下降和训练不稳定，而训练针对质量和推理进行优化的单独模型可能是不可行的。此外，虽然一些语言模型已经使用了multi-query attention，如PaLM，但许多语言模型并没有使用，包括公开可用的语言模型，如T5和LLaMA。

这项工作包含了对使用大型语