华为裸辞员工：985硕都找不到工作，这个社会就完了！八个月后：“已老实“

最新推荐文章于 2024-08-21 19:38:31 发布

辣卤牛肉面

最新推荐文章于 2024-08-21 19:38:31 发布

阅读量412

点赞数 5

文章标签：华为 AIGC 人工智能产品经理 langchain 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76168381/article/details/141394103

版权

一个前华为员工，辞职前信誓旦旦的认为，985 的硕士怎么可能找不到工作。

然后就被现实狠狠打脸，八个月过去了，还没有找到工作。

说实话，这个华为员工有自信的资本，但是却输给了现实。都说学历是敲门砖，但也仅仅是刚毕业时，工作几年后谁管你是来自 985 还是 211，工作经验和技能更重要。

来自智联招聘的调查统计：今年普本院校本科毕业生就业率为 43.9%，而双非院校的硕博毕业生就业率仅为 33.2%，相较于去年整整下降了 17 个百分点。

说回我们今天的内容，今天我们聊聊大模型中的分组查询注意力机制（GQA）,如果面试时你被问到这个知识点，应该如何应对？

01

什么是分组查询注意力？

简单来说，分组查询注意力通过将相似的文本片段绑在一起来简化大型语言模型理解大量文本的过程。这样模型可以一次专注于一组词，而不是每个词，处理效率更高。

GQA 可以看做是多查询注意力（MQA）和多头注意力（MHA）的一个折中，它可以保证 MHA 的质量，同时又有 MQA 的速度。

具体来说，GQA 将查询头分成 G 组，每组共享一个键头和值头。

看下图：

它通过对查询词进行分组，并对不同组给予不同的注意力来建模查询内部的层次关系。采用这种方法，可以理解复杂查询的语义结构，并且增强系统在检索时的性能。

02

GQA 是如何工作的？

上面已经说了，分组查询注意力融合了多查询注意力的速度和多头注意力的质量。

在 Transformer 中，多头注意力使用多个并行的注意力头，每个头都有独自的查询、键、值，以及输出的线性变换。

相反，多查询注意力在不同的头之间共享键和值。

所以 GQA 可以被看做是优化 Transformer 注意力机制的一种方法。它并不是独立地计算每个查询的注意力，而是将查询分组在一起，联合计算它们的注意力。

这样的好处是减少了注意力计算的数量，加快了推理时间。不过虽然 MQA 大大加快了解码器推理的速度，但可能会导致质量下降。

所以为了解决这个问题，引入了 GQA，作为 MQA 的一个推广，使用中等数量的键值头，比一个多，但少于查询头的数量。

GQA 中查询头被分成组，每组共享一个键头和一个值头。这样的话，GQA 就可以在多头注意力和多查询注意力之间进行插值，实现质量和速度之间的平衡。

具有单组（只有一个键和值头）的 GQA 等同于 MQA，而具有与头数量相等的组的 GQA 等同于 MHA。

03

有哪些常见的实现 GQA 的方法？

第一种是基于相似性进行分组查询，比如根据查询相似性进行分组，我们需要计算查询之间的相似度，然后分配到对应组别中。

第二种是将查询头分组，每组共享一个键头和值头，这种方法允许 GQA 在多头注意力和多查询注意力之间进行插值，实现质量和速度之间的平衡。

第三种是使用中等数量的键值头，GQA 通过使用中等数量的键值头，在 MQA 和 MHA 之间取得平衡，数量多于一个但少于查询头的数量。

还有可以通过重复键值对来提高计算效率，优化性能，具体通过将键值对重复 n_rep 次来实现，n_rep 表示共享相同键值对的查询头数量。

04

分组查询注意力的好处有哪些？

GQA 通过在 MQA 和 MHA 之间进行插值，实现接近 MHA 的质量，在两者之间取得平衡。

GQA 通过使用中等数量的键值头，保持与 MQA 相当的速度，比 MHA 更快。

GQA 还可以显著降低大型语言模型的计算复杂度，从而加快推理时间。GQA 允许多 GPU 并行，使计算资源的使用更加高效。

GQA 结合了 MQA 的低内存使用和 MHA 的高质量，使其适用于内存受限的大规模模型。

05

分组查询注意力有哪些问题？

最后给大家总结一下分组查询注意力存在的四大问题：

质量下降和训练不稳定： GQA 是多查询注意力（MQA）的演进版本，使用多个查询头但只有一个键和值头。

虽然 MQA 加快了解码器推理速度，但可能导致质量下降和训练不稳定。GQA 尝试通过使用中等数量的键值头（多于一个但少于查询头的数量）来缓解这些问题，但在速度和质量之间取得平衡仍然是一个挑战。

内存带宽开销： 自回归解码器推理是 Transformer 模型的严重瓶颈，因为在每个解码步骤中加载解码器权重和所有注意力键和值会产生内存带宽开销。

GQA 尝试通过将查询头分组来解决这个问题，每组共享一个键头和一个值头。然而，管理这些内存带宽开销仍然是一个重要的挑战。

组划分： 输入节点被划分为多个组，只在局部块内计算注意力。如果节点总数不能被组长度整除，则会添加零填充节点以匹配长度。这种组划分和管理增加了GQA实现的复杂性。

超参数调整： 要实现 GQA 的最佳性能需要仔细调整超参数。例如，将查询头划分为多少组会显著影响模型的性能和效率。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

辣卤牛肉面

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
华为裸辞员工：985硕都找不到工作，这个社会就完了！八个月后：“已老实“

简单来说，分组查询注意力通过将相似的文本片段绑在一起来简化大型语言模型理解大量文本的过程。这样模型可以一次专注于一组词，而不是每个词，处理效率更高。GQA 可以看做是多查询注意力（MQA）和多头注意力（MHA）的一个折中，它可以保证 MHA 的质量，同时又有 MQA 的速度。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。