论文地址: Fast Transformer Decoding: One Write-Head is All You Need
MQA的思想其实比较简单(如果对MHA比较熟悉的话),论文中给出的描述如下:
可以看到MHQ和MQA的不同之处仅仅在于每个头共享相同的K、V权重而Q不同享。
模型效果论文对比如下:
论文地址: Fast Transformer Decoding: One Write-Head is All You Need
MQA的思想其实比较简单(如果对MHA比较熟悉的话),论文中给出的描述如下:
可以看到MHQ和MQA的不同之处仅仅在于每个头共享相同的K、V权重而Q不同享。
模型效果论文对比如下: