attention机制_Attention机制在视觉问答（VQA）中应用的小结

最新推荐文章于 2023-03-16 21:36:32 发布

weixin_39805087

最新推荐文章于 2023-03-16 21:36:32 发布

阅读量439

点赞数 1

文章标签： attention机制

近年来，Attention机制在深度学习领域受到了越来越多的关注。从数学的形式上看，Attention机制只是简单地对输入项根据重要程度分配不同的加权参数，但这一机制模拟了人脑的认知模式，即根据实际需求而将有限的注意力聚焦于事物的关键部分，从而大大加强了神经网络的理解能力。

由于VQA涉及对图像和文字的深度理解，Attention机制在VQA领域自然成了一大利器。延续之前的研究工作Image caption(图像摘要)，计算机只做了感知和抽取图片信息的工作，接下来计算机就可以利用从图片中得到的信息进行推理生成文本，并以问答的形式呈现，即视觉问答(VQA)任务。所以这周将attention机制在VQA中的典型应用梳理了一下，写一篇博客留下点痕迹。。。

Question-guided image attention

最早在VQA中应用attention的工作大概是这两个：

Xu等人的Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering，发表于ECCV 2016。

Yang等人的Stacked Attention Networks for Image Question Answering，发表于同一年的CVPR。

这两个工作整体思路上大同小异，其中的attention机制都属于question-guided image attention，根据问题调整对图片的注意力，从而使模型关注关键的区域。

Co-attention

上面的attention解决的是“看哪里”的问题，而实际上，对于VQA这种多模态问题，考虑“关注问题中的哪些单词”也同样重要，于是自然想到把question attention加入模型中。

在这方面，Lu等人在NIPS 2016上发表的Hierarchical Question-Image Co-Attention for Visual Question Answering是一个先驱工作。

这一工作考虑了image attention和question attention的协同作用，既有question-guided image attention，又有image-guided question attention，具有对称性，故称co-attention。
另外，本文的另一特色是利用了层级架构(hierarchy)。

Nam等人的Dual Attention Networks for Multimodal Reasoning and Matching(CVPR 2017)也应用了极其类似的attention机制：

从模型示意图上可以看到，这里同样应用了image attention和question attention，两者通过共有的memory向量互相产生联系并通过迭代过程逐步细化。

另外，ICCV 2017上Yu等人的Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering也用到这种co-attention。在他们的模型中，question attention参与image attention的计算，但不同上面两个工作，这里question attention是独立推断的，作者们认为这与人类的反应一致，人们不需要借助图片也能抓住问题的重点。

Detection attention

CVPR 2018的oral论文Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering因为其团队夺得了VQA Challenge 2017的冠军而名声大噪，其方法的新颖性在于提出了基于object detection的bottom-up attention。
此前的image attention都是基于CNN特征的，这相当于把图片均等分割成若干区域然后对其进行筛选；而本文提出的bottom-up attention则利用object detection网络Faster R-CNN来实现，将图片分割成一个个具体的物体来进行筛选。

两者的对比图如上所示。基于CNN特征的attention由于缺乏对图片中具体物体的认知，所以可能仅仅关注物体的一部分，或关注到与问题无关的环境。相比之下，基于物体的attention更符合人类观察世界的习惯，因而显得更为自然。

上图是本文的模型示意图。值得注意的是，如文章标题所示，该模型应用了bottom-up和top-down attention。前者指的是Faster R-CNN筛选出一组最为明显的object，得到图中的Image features；后者在图中有示意，跟一般的image attention无异，表示对这些object给予不同程度的关注。

在同一年的AAAI上，Lu等人的Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering也用到了detection attention，但不同的是，他们并没有放弃原来那种基于CNN特征的image attention(他们称为free-form attention)，而是将两者结合，形成free-form attention与detection attention的co-attention。

detection attention的优势上面已经提到过了，然而，detection attention的作用受限于其检测类别的广度，如，对于“How is the weather today?”这样的问题，如果object detection网络不检测“天空”这个object，则模型无法对这一问题做出准确回答。而在这方面，free-form attention就显示出了优势，因此，本文认为这两种attention应是互补的。

Relational attention

以上的attention基本没有考虑图片中object之间的关系，而object之间的关系对于回答某些问题至关重要，如，在下面的例子中，模型需要比较两朵花的高度才能做出准确答复。

基于此，ACM Multimedia 2018的一篇论文Object-Difference Attention: A Simple Relational Attention for Visual Question Answering提出了relational attention的概念，首先对图中object两两之间的关系进行建模，再用attention对这些关系进行筛选。

这里简单地用差分操作来比较两个object特征，实际上，该论文还实验了其他操作，如加法、乘法等，最后发现还是减法最有效。然而，这些操作都显得过于简单了，因此，如何更合理地对object间的关系建模是一个可供改进的方向。

weixin_39805087

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
attention机制_Attention机制在视觉问答（VQA）中应用的小结

近年来，Attention机制在深度学习领域受到了越来越多的关注。从数学的形式上看，Attention机制只是简单地对输入项根据重要程度分配不同的加权参数，但这一机制模拟了人脑的认知模式，即根据实际需求而将有限的注意力聚焦于事物的关键部分，从而大大加强了神经网络的理解能力。由于VQA涉及对图像和文字的深度理解，Attention机制在VQA领域自然成了一大利器。延续之前的研究工作Imag...
复制链接

扫一扫