Multi Query Attention & Group Query Attention

transformer_WSZ

已于 2023-09-13 02:29:06 修改

阅读量4k

点赞数 2

分类专栏： nlp 文章标签： MQA

于 2023-09-13 02:28:46 首次发布

本文链接：https://blog.csdn.net/transformer_WSZ/article/details/132844172

版权

nlp 专栏收录该内容

16 篇文章

订阅专栏

Multi Query Attention(MQA)在2019年就被提出来了，用于推理加速，但在当时并没有受到很多关注，毕竟一张2080就能跑Bert-base了。随着LLM的大火，MQA所带来的收益得以放大。

思路

Multi Query Attention(MQA)跟Multi Head Attention(MHA)只有一词之差，但其思路非常简单，几乎跟MHA一致：

model

MHA的Query、Key、Value分拆成8个头，每个头进行self-attention运算，而MQA是Query分成8个头，每个头共享一组Key和Value

MHA: Q, K, V = (512, 768), # seq_len, hidden_dim
			拆成8个头：
			Q : (8, 512, 96) 
			k, v: (8, 512, 96)
MQA: 
 Q -> (512, 768) 
 K -> (512, 96)
 v -> (512, 96)
把Q拆成8个头：
Q： (8, 512, 96)
K, V：(512, 96)

代码实现

...
self.Wqkv = nn.Linear( 
            d_model,
            d_model * 3,
            device=device,
        )
...

将 d_model * 3 拆成3个768维

...
self.Wqkv = nn.Linear( 
            d_model,
            d_model + 2 * self.head_dim,
            device=device,
        )
...

将 d_model + 2 * self.head_dim 拆成1个768维 + 2个96维

可以看到参数数量大幅减少。

实验结果

实验指标略微降低，但推理加速非常明显。

result

Group Query Attention

Q拆分成8个头，K和V分别拆成4个头，然后对应进行attention运算。

参考

Fast Transformer Decoding: One Write-Head is All
You Need
[LLM] multi query attention加速推理解码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

transformer_WSZ

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Multi-Query Attention 阅读笔记

Hope^_^

06-26

1559

核心贡献：优化 multi-head attention 为 multi-query attention，减少多head相关运算，不降低精度且大幅提升解码速度。

Transformer之MQA：多查询注意力(Multi-Query Attention,MQA)的概述(论文+原理等)、代码实现、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

03-05

1417

Transformer之MQA：MQA的概述、代码实现、案例应用之详细攻略目录相关论文《Fast Transformer Decoding: One Write-Head is All You Need》翻译与解读 Abstract MQA技术的概述 MQA的代码实现 T1、MQA在 llm-foundry 中的实现 MQA的案例应用相关论文《Fast Transformer Decoding: One Write-Head is All You Need

参与评论您还未登录，请先登录后发表或查看评论

多查询注意力（Multi Query Attention, MQA）

lqq

10-22

1733

多查询注意力（MQA）是一种对多头注意力机制的改进，主要通过共享键和值矩阵来减少显存占用并提升计算效率。它特别适合长序列输入和大规模模型的应用场景。通过减少显存读写操作，MQA 有效缓解了传统多头注意力在显存使用上的瓶颈问题，同时可以通过微调将其集成到现有模型中。许多现代模型如 Falcon、SantaCoder 和 StarCoder 已经使用了该机制，实现了性能和效率的提升。

Multi-Query Attention 详解

最新发布

阿正的梦工坊

02-23

622

MQA 适用于需要高效推理的任务，但在高表达能力的任务上可能会有一定的性能损失

chatGLM2中的Multi Query Attention

HUSTHY的博客

07-10

2897

MQA最早是出现在2019年谷歌的一篇论文，之所以没有关注到，是因为之前很少做文本生成，解码序列长度也没有现阶段大模型的要求那么高。MQA的思想其实比较简单(如果对MHA比较熟悉的话)，论文中给出的描述如下：论文的意思是：MQA和MHA除了不同的attention head共享一份keys和values权重之外，其他的都是一样的。

Grouped-query Attention(GQA)、Multi-query Attention(MQA)、Multi-Head Latent Attention (MLA)

taoqick的专栏

02-12

934

Grouped-query attention an interpolation of multi-query and multi-head attention that achieves quality close to multi-head at comparable speed to multi-query attention.

MQA(Multi-Query Attention)详解

xiao_ling_yun的博客

08-01

2078

MQA(Multi-Query Attention)：多头注意力机制MHA的优化版本，轻微牺牲性能，换取FLOPs的减少和KV Cache的显存占用的减少。

Grouped Query Attention论文阅读

分享机器学习、深度学习、分布式计算、MLSys相关领域知识

08-06

1910

Google在2023年发表的一篇关于Transformer Attention的论文，整体论文写的清晰易读，思想简单但很好用。论文名字简写是GQA

深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

weixin_43568400的博客

02-27

2085

GQA是2023年发表的一篇paper提出的idea，目前用在了llama2、falcon等LLM上。paper一般都篇幅众多，老规矩，本文总结出最精华的部分:)

MHA(Multi-Head Attention) 与GQA(Grouped Query Attention)的区别

2301_79093491的博客

10-31

979

特点：每个头都有独立的查询、键和值投影矩阵，最大化模型的表达能力。优点：能够捕获输入序列中丰富的特征，适用于对性能要求高的场景。缺点：参数量大，计算复杂度高，对资源要求较高。

Multi-Head Attention和Multi-Query Attention的计算分析

wentinghappyday的博客

08-17

3105

Multi-Head Attention、Multi-Query Attention的实现伪代码解读，计算量解读和显存占用量解读

几种不同的self-attention

qq_29787929的博客

02-13

584

在进行大模型的训练和推理中会大量的使用self-attention，在显存中需要保存self-attention中的query、key和value矩阵。Multi-head attention中每个头都有对应的query、key和value矩阵，因此会占用大量显存。grouped-query attention通过分组的方式，同一个组内共用一个key和value矩阵，当分组数与头数相同时即为Multi-head attention，当分组数为1时则为Multi-query attention。

【LLM】Group Query Attention (GQA)

2665000101@qq.com

02-04

1053

在 Transformer 模型中，注意力机制的计算开销很大，尤其是当序列长度和模型规模增加时。Group Query Attention (GQA) 是一种改进的注意力机制，旨在。的方式，减少了计算量，同时尽量保留了模型的表达能力。这样，既减少了计算量，又保留了不同注意力头的多样性。

快速Transformer解码：Multi-query Attention

yorkhunter的博客

07-06

536

2019年11月谷歌的论文“Fast Transformer Decoding: One Write-Head is All You Need“。

Multi Query Attention和 Group Query Attention的介绍和原理

qq_40427481的博客

02-20

1775

另外，分组查询注意力(GQA)是MQA的更一般形式，于2023年提出，介于MQA和MHA之间，是模型预测表现和模型推理性能之间的一个折衷。举例来说，以ChatGLM2-6B为例，一共28层，32个注意力头，输入维度从4096经过Q、K、V矩阵映射维度为128，若采用原生多头注意力机制，则Q、K、V矩阵各有28×32个，而采用MQA的方式则整个模型包含28×32个Q矩阵，28×1个K矩阵，28×1个V矩阵。GQA是MQA的更一般形式，它介于MQA和MHA之间，是模型预测表现和模型推理性能之间的一个折衷。

Llama改进之——分组查询注意力

日积月累，天道酬勤

05-31

3904

本文介绍了分组查询注意力的实现以及如何应用旋转位置编码到分组查询注意力上。

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

结构之法算法之道

11-05

1万+

因此，可以确认：在 MQA 中，除了 query 向量还保存着 8 个头，key 和 value 向量都只剩 1 个「公共头」了，这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」然而，随着上下文窗口或批量大小的增加，多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。对于较大的模型，KV 缓存大小成为瓶颈，键和值投影可以在多个头之间共享，而不会大幅降低性能，可以使用。)，其能够在保证模型效果的同时加快 decoder 生成 token 的速度。

Group Query Attention (GQA) 机制详解以及手动实现计算

热门推荐

samoyan的博客,记录技术成长~

04-19

1万+

Grouped-Query Attention (GQA) 是对 Multi-Head Attention (MHA) 和 Multi-Query Attention (MQA) 的扩展。通过提供计算效率和模型表达能力之间的灵活权衡，实现了查询头的分组。GQA将查询头分成了G个组，每个组共享一个公共的键（K）和值（V）投影。

Multi head attention code

05-23

Here is a simple implementation of multi-head attention in PyTorch: ```python import torch import torch.nn as nn class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MultiHeadAttention, self).__init__() assert d_model % num_heads == 0, "d_model must be divisible by num_heads" self.d_model = d_model self.num_heads = num_heads self.head_dim = d_model // num_heads self.query = nn.Linear(d_model, d_model) self.key = nn.Linear(d_model, d_model) self.value = nn.Linear(d_model, d_model) self.fc = nn.Linear(d_model, d_model) def split_heads(self, x, batch_size): x = x.view(batch_size, -1, self.num_heads, self.head_dim) x = x.permute(0, 2, 1, 3) return x def forward(self, query, key, value, mask=None): batch_size = query.size(0) # linear transformations query = self.query(query) key = self.key(key) value = self.value(value) # split into multiple heads query = self.split_heads(query, batch_size) key = self.split_heads(key, batch_size) value = self.split_heads(value, batch_size) # dot product attention scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.head_dim).float()) if mask is not None: scores = scores.masked_fill(mask == 0, float("-inf")) attention = torch.softmax(scores, dim=-1) x = torch.matmul(attention, value) # concatenate attention heads x = x.permute(0, 2, 1, 3).contiguous() x = x.view(batch_size, -1, self.d_model) # final linear transformation x = self.fc(x) return x ``` This implementation takes as input a `d_model` dimension tensor and splits it into `num_heads` attention heads. The `query`, `key`, and `value` matrices are linearly transformed and split into heads as well. Then, the dot product attention is calculated and the attention heads are concatenated and linearly transformed again. To use this module in your Transformer, you can simply call it like this: ```python attn = MultiHeadAttention(d_model=512, num_heads=8) output = attn(query, key, value) ```