高曝光率词汇之一:Attention Mechanism 注意力机制

本文介绍了注意力机制在深度学习中的应用,如图像问答、机器翻译和文本分类,并探讨了Soft Attention、Hard Attention和Co-Attention机制。通过结合背景信息,注意力机制能更有效地理解和处理输入信息。
摘要由CSDN通过智能技术生成

深度学习高频词汇解析:

  1. 高曝光率词汇之一:Attention Mechanism

Attention Mechanism注意力机制,目前已经广泛应用在图像分类(Image Classification)、图像问答(Visual Question Answering)、机器翻译(Machine Translation)、语音识别(Voice Recognition)以及文本分类(Text Classification)等研究领域。翻开新近发表的深度学习相关的论文,Attention 一词几乎处处可见。下面我将试图介绍注意力机制的基本原理变体以及一些经典应用。功力有限,文字拙劣,如有错误与不足,欢迎指正。

Attention Mechanism 最早出现在神经科学领域。科学家发现,当人眼捕捉到一个画面时,不会将整个画面全部传递给大脑进行处理,而是从画面中的某一子区域开始传递。我们日常生活中有很多类似的场景:面对一幅图像,总是最先注意到面积较大、颜色较艳丽的部分;面对一个陌生人,会有一个打量对方的顺序。由于我们的大脑处理能力有限,所以我们的眼睛需要按照一定的顺序对图像分块传递。传递顺序因人而异,与观察者的个人习惯、个人喜好等背景信息有关。写到这里,注意力机制的要素就都出现了:观察对象整体,整体的子部分,处理顺序,背景信息。

通俗地讲,注意力机制是指在理解一个对象时,根据背景信息,将各个子部分按相关度区分对待,更好地理解该对象。在图像问答中,对象可能是一张图片,子部分就是图像的划分区域,背景信息对应问题含义。在自动问答场景中,对象可能是一段候选答案文本,子部分就是文本中的一个词或词组,背景信息便是问题文本的含义。

  • 以图像问答为例

图像问答即根据图像内容回答相关问题。在该场景下,需要计算机理解问题文本和目标图像,然后回答与图像内容相关的问题,如是与否的判定问题、颜色判别、计数、物体识别等等。下图是图像问答的例子(图片来自参考文献[1])。

要回答关于图像的问题,首先需要理解问题,即搞清楚问题在问什么,问题理解可以通过提取问题文本的特征   q   ~q~  q 表示来完成。其次还需要理解图像,搞清楚图像里有什么内容,可以通过提取图像的特征   v = [ v 1 , v 2 , . . . , v m ]   ~v=[v_1, v_2, ..., v_m]~  v=[v1,v2,...,vm] 来完成。只知道图像整体的信息还不足以得出正确答案,毕竟和问题紧密相关的可能只是图像的一小部分。所以我们还需要知道答案包含在图像的哪一部分。到这里,一个注意力机制的应用场景就浮现出来了:问题文本表征   q   ~q~  q 是背景信息,图像的各个子区域重要性存在差异,与问题越相关的子区域对回答问题越重要,在最终的图像特征中应占有更大比重。下图是 VQA 场景下注意力机制的过程示意图以及[1]中注意力机制的效果展示图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值