大模型中的注意力机制——MHA、GQA、MQA

Hilbob

已于 2023-07-31 11:45:10 修改

阅读量8.9k

点赞数 10

于 2023-07-31 11:44:40 首次发布

本文链接：https://blog.csdn.net/qq_42714262/article/details/132019126

版权

NLP 专栏收录该内容

10 篇文章

订阅专栏

文章探讨了Transformer模型中的注意力机制优化，主要介绍了MHA（多头注意力）、MQA（多查询注意力）和GQA（分组查询注意力）三种模式。MHA允许不同头的Key和Value独立，MQA共享Key和Value以减少参数，而GQA则是介于两者之间，通过分组来平衡效率与性能。GQA-1与MQA等价，GQA-H与MHA等价。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题，研究人员也进行了许多研究。代表的就是以下三种模式：

MHA（Multi-head Attention）是标准的多头注意力机制，包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA（Multi-Query Attention，Fast Transformer Decoding: One Write-Head is All You Need）是多查询注意力的一种变体，也是用于自回归解码的一种注意力机制。与MHA不同的，MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量。

GQA（Grouped-Query Attention，GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints）是分组查询注意力，GQA将查询头分成G组，每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组，因此具有单个Key 和 Value，等效于MQA。若GQA-H具有与头数相等的组，则其等效于MHA。

显然，GQA介于MHA和MQA之间。下图展示了他们的具体结构：
在这里插入图片描述