大模型面经—GQA(Grouped Query Attention)和MHA、MQA的区别及代码
瓦力算法学研所 2024年07月07日 10:43 安徽
技术总结专栏
本篇介绍分组查询注意力机制。
在大模型技术中,GQA(Grouped Query Attention)是一种注意力机制,它介于MHA(Multi-Head Attention)和MQA(Multi-Query Attention)之间,旨在结合两者的优点,以实现在保持MQA推理速度的同时接近MHA的精度 。
MHA是一种基