神经网络算法:一文搞懂Attention（注意力）机制

最新推荐文章于 2025-05-12 16:43:29 发布

大模型与计算机视觉

最新推荐文章于 2025-05-12 16:43:29 发布

阅读量3.2k

点赞数 22

分类专栏：算法学习笔记文章标签：神经网络算法人工智能深度学习机器学习

本文链接：https://blog.csdn.net/2401_84033492/article/details/137195327

版权

189 篇文章

订阅专栏

本文详细阐述了Attention机制的核心逻辑、原理以及在AI领域的应用，包括Transformer模型、BERT和GPT的发展。通过图书馆寻找漫威书籍的例子，生动展示了Attention如何根据信息重要性分配注意力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文将从Attention的本质、Attention的原理、Attention的应用三个方面，带您一文搞懂Attention（注意力）机制。

核心逻辑：从关注全部到关注重点

视觉系统就是一种Attention机制

Transformer：《Attention is All You Need》

**AI 领域的 Attention 机制：**Attention->Transformer->BERT、GPT->NLP

原理初体验： 小故事讲解 Attention原理

Attention机制：了解漫威

Attention原理：3阶段分解

Attention机制的原理图

RNN 时代是死记硬背的时期，Attention机制学会了提纲挈领，进化到Transformer，融会贯通，具备优秀的表达学习能力，再到 GPT、BERT，通过多任务大规模学习积累实战经验，战斗力爆棚。

CNN + Attention：

CNN的卷积操作可以提取重要特征，这也算是Attention的思想。但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野。

CNN叠加Attention方式如下：

在卷积操作前做Attention： 比如Attention-Based BCNN-1，对两段输入的序列向量进行Attention，计算出特征向量，再拼接到原始向量中，作为卷积层的输入。
在卷积操作后做Attention： 比如Attention-Based BCNN-2，对两段文本的卷积层的输出做Attention，作为池化层的输入。
在池化层做Attention： 比如Attention pooling，首先我们用LSTM学到一个比较好的句向量，作为query，然后用CNN先学习到一个特征矩阵作为key，再用query对key产生权重，进行Attention，得到最后的句向量。

LSTM+Attention：

LSTM内部有门控机制，其中输入门选择哪些当前信息进行输入，遗忘门选择遗忘哪些过去信息，这也算是一定程度的Attention。但LSTM需要一步一步去捕捉序列信息，在长文本上的表现会随着步骤的增加而慢慢衰减，难以保留全部的有用信息。

LSTM通常需要得到一个向量，再去做任务，常用方式有：