深度学习高频词汇解析:
- 高曝光率词汇之一:Attention Mechanism
Attention Mechanism,注意力机制,目前已经广泛应用在图像分类(Image Classification)、图像问答(Visual Question Answering)、机器翻译(Machine Translation)、语音识别(Voice Recognition)以及文本分类(Text Classification)等研究领域。翻开新近发表的深度学习相关的论文,Attention 一词几乎处处可见。下面我将试图介绍注意力机制的基本原理、变体以及一些经典应用。功力有限,文字拙劣,如有错误与不足,欢迎指正。
Attention Mechanism 最早出现在神经科学领域。科学家发现,当人眼捕捉到一个画面时,不会将整个画面全部传递给大脑进行处理,而是从画面中的某一子区域开始传递。我们日常生活中有很多类似的场景:面对一幅图像,总是最先注意到面积较大、颜色较艳丽的部分;面对一个陌生人,会有一个打量对方的顺序。由于我们的大脑处理能力有限,所以我们的眼睛需要按照一定的顺序对图像分块传递。传递顺序因人而异,与观察者的个人习惯、个人喜好等背景信息有关。写到这里,注意力机制的要素就都出现了:观察对象整体,整体的子部分,处理顺序,背景信息。
通俗地讲,注意力机制是指在理解一个对象时,根据背景信息,将各个子部分按相关度区分对待,更好地理解该对象。在图像问答中,对象可能是一张图片,子部分就是图像的划分区域,背景信息对应问题含义。在自动问答场景中,对象可能是一段候选答案文本,子部分就是文本中的一个词或词组,背景信息便是问题文本的含义。
图像问答即根据图像内容回答相关问题。在该场景下,需要计算机理解问题文本和目标图像,然后回答与图像内容相关的问题,如是与否的判定问题、颜色判别、计数、物体识别等等。下图是图像问答的例子(图片来自参考文献[1])。
要回答关于图像的问题,首先需要理解问题,即搞清楚问题在问什么,问题理解可以通过提取问题文本的特征 q ~q~ q 表示来完成。其次还需要理解图像,搞清楚图像里有什么内容,可以通过提取图像的特征 v = [ v 1 , v 2 , . . . , v m ] ~v=[v_1, v_2, ..., v_m]~ v=[v1,v2,...,vm] 来完成。只知道图像整体的信息还不足以得出正确答案,毕竟和问题紧密相关的可能只是图像的一小部分。所以我们还需要知道答案包含在图像的哪一部分。到这里,一个注意力机制的应用场景就浮现出来了:问题文本表征 q ~q~ q 是背景信息,图像的各个子区域重要性存在差异,与问题越相关的子区域对回答问题越重要,在最终的图像特征中应占有更大比重。下图是 VQA 场景下注意力机制的过程示意图以及[1]中注意力机制的效果展示图。