主题:
我们提出将自顶向下和自底向上的注意力机制融合起来,从对象层面计算图像的显著区域。
正文:
1.新方法的概要过程:
自底向上机制(基于Faster R-CNN)提取图像区域,每一个区域关联一个特征向量,自顶向下机制定义特征权重(就是该特征的重要程度)。
2.VQA和Image captioning通常使用什么样的方法,有什么缺陷:
VQA和Image captioning通常使用传统的自顶向下注意力机制,将部分完成的字幕输出或者图像相关的问题作为上下文表示。下图左边为传统方法,会将图像分成大小相等的无数格子,没有区分格子的重要程度,右图是该论文提出的方法。
3.Bottom-Up Attention Model:
根据边界框(bounding boxes)定义空间区域,并且使用Faster R-CNN执行自底向上注意力。
4.Faster R-CNN:
Faster- R-CNN作为一个“硬”注意力机制(‘hard’ atten