Transformer动画讲解-单头注意力和多头注意力_transformer中多头注意力的区别-CSDN博客

本文链接：https://blog.csdn.net/2401_84208172/article/details/141252938

单头注意力和多头注意力

Transformer的起源：Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer，它完全基于注意力机制，摒弃了循环和卷积操作。

注意力机制是全部所需

正如论文标题所言“注意力机制是全部所需”，强调了注意力机制是Transformer架构的核心要素，就如同人的心脏一样，充当着发动机的作用。

那么单头注意力和多头注意力到底是什么？它们两者有哪些联系和区别？让我们一起跟着动画来解读吧。

单头注意力和多头注意力

单头注意力： 通过生成查询、键和值向量，计算并归一化注意力分数，最终对值向量进行加权求和，从而得到输入序列中每个位置的加权表示。

单头注意力

单头注意力机制的工作流程如下：

单头注意力工作流程

多头注意力机制工作流程如下：

多头注意力工作流程

单头注意力：只能关注一个方面，信息捕捉能力有限。
多头注意力：通过多个头的并行处理，能够捕捉到更多样化的特征，提高了模型的表达能力和泛化性能。这种机制使得多头注意力能够关注到句子更多层面的信息，例如罕见词、多义词、反义词等。

单头注意力：计算复杂度相对较低，训练也较为简单。
多头注意力：虽然增加了计算复杂度，但通常可以通过并行计算来优化。同时，它也需要更多的训练数据和计算资源来优化模型。然而，这些额外的投入通常能够带来模型性能的显著提升。

单头注意力和多头注意力

**注释**

Transformer动画素材来源于3Blue1Brown，想了解更多查看参考资料网址。**

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

Transformer动画讲解-单头注意力和多头注意力