高曝光率词汇之一：Attention Mechanism 注意力机制

最新推荐文章于 2024-09-14 17:34:13 发布

张土豆

最新推荐文章于 2024-09-14 17:34:13 发布

阅读量920

点赞数

文章标签：深度学习注意力机制 Attention VQA

本文链接：https://blog.csdn.net/potato012345/article/details/82990190

版权

本文介绍了注意力机制在深度学习中的应用，如图像问答、机器翻译和文本分类，并探讨了Soft Attention、Hard Attention和Co-Attention机制。通过结合背景信息，注意力机制能更有效地理解和处理输入信息。

摘要由CSDN通过智能技术生成

深度学习高频词汇解析：

高曝光率词汇之一：Attention Mechanism

Attention Mechanism，注意力机制，目前已经广泛应用在图像分类(Image Classification)、图像问答(Visual Question Answering)、机器翻译(Machine Translation)、语音识别(Voice Recognition)以及文本分类(Text Classification)等研究领域。翻开新近发表的深度学习相关的论文，Attention 一词几乎处处可见。下面我将试图介绍注意力机制的基本原理、变体以及一些经典应用。功力有限，文字拙劣，如有错误与不足，欢迎指正。

Attention Mechanism 最早出现在神经科学领域。科学家发现，当人眼捕捉到一个画面时，不会将整个画面全部传递给大脑进行处理，而是从画面中的某一子区域开始传递。我们日常生活中有很多类似的场景：面对一幅图像，总是最先注意到面积较大、颜色较艳丽的部分；面对一个陌生人，会有一个打量对方的顺序。由于我们的大脑处理能力有限，所以我们的眼睛需要按照一定的顺序对图像分块传递。传递顺序因人而异，与观察者的个人习惯、个人喜好等背景信息有关。写到这里，注意力机制的要素就都出现了：观察对象整体，整体的子部分，处理顺序，背景信息。

通俗地讲，注意力机制是指在理解一个对象时，根据背景信息，将各个子部分按相关度区分对待，更好地理解该对象。在图像问答中，对象可能是一张图片，子部分就是图像的划分区域，背景信息对应问题含义。在自动问答场景中，对象可能是一段候选答案文本，子部分就是文本中的一个词或词组，背景信息便是问题文本的含义。

以图像问答为例

图像问答即根据图像内容回答相关问题。在该场景下，需要计算机理解问题文本和目标图像，然后回答与图像内容相关的问题，如是与否的判定问题、颜色判别、计数、物体识别等等。下图是图像问答的例子（图片来自参考文献[1]）。

要回答关于图像的问题，首先需要理解问题，即搞清楚问题在问什么，问题理解可以通过提取问题文本的特征 $q$ 表示来完成。其次还需要理解图像，搞清楚图像里有什么内容，可以通过提取图像的特征 $v=[v_1, v_2, ..., v_m]~$ 来完成。只知道图像整体的信息还不足以得出正确答案，毕竟和问题紧密相关的可能只是图像的一小部分。所以我们还需要知道答案包含在图像的哪一部分。到这里，一个注意力机制的应用场景就浮现出来了：问题文本表征 $q$ 是背景信息，图像的各个子区域重要性存在差异，与问题越相关的子区域对回答问题越重要，在最终的图像特征中应占有更大比重。下图是 VQA 场景下注意力机制的过程示意图以及[1]中注意力机制的效果展示图。