Mutli-Head Attention 和 Self-Attention 的区别与联系

最新推荐文章于 2024-02-29 10:50:14 发布

weix1235

最新推荐文章于 2024-02-29 10:50:14 发布

阅读量2k

点赞数 1

文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/weix1235/article/details/121449484

版权

本文探讨了Multi-Head Attention和Self-Attention的关系与区别。Multi-Head Attention通过多个不同的表示子空间获取信息，常用于特征提取，而Self-Attention则专注于捕捉特征的内部相关性，减少对外部信息的依赖。两者的主要区别在于信息输入的来源，Multi-Head Attention的输入映射到不同子空间，Self-Attention输入统一。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在阅读论文的过程中接触到了Multi-Head Attention的结构，脑子里的第一反应是都叫Attention，那Mutli-Head Attention 和 Self-Attention 之间是什么关系呢？
在网上查阅资料，记笔记，总结一下。
首先，简单介绍一下multi-head attention，我最早接触到这种结构是在Transformer的编码器结构中，不知道这种编码器结构并不影响你去了解multi-head attention。简单来说它是一种多个不同表示空间的获取方法，如果以文本识别为例，一个attention就对应一个空间，那么有多个attention自然就可以获得多个空间。multi-head attention 为attention提供了多个表示子空间（representation subspaces），在每个attention中，采用Q、K、V权重矩阵（一种权重表示方式），这使得每个矩阵都通过随机初始化生成。
值得注意的是multi-head attention并不是独立的结构，它自身无法单独完成训练，但在使用过程中可以通过堆叠形成深层结构。常用于文本分类等场景的特征提取部分。
multi-head attention结构图（图片来自网络！）
在对self-attention进行介绍之前，先来了解一下attention机制。
早在attention机制诞生之前，CNN、RNN及变体模型就已经存在了，那为何还要引入注意力机制呢？
主要原因：
1.算力限制ÿ

最低0.47元/天解锁文章