1. 引言
在image captioning和VQA中为了生成搞质量的输出,需要精细的视觉处理甚至多步推导。所以,视觉注意机制被广泛的应用。
两个定义:
- top-down:nonvisual or task-specific context
- bottom-up:purely visual feed-forward attention mechanisms
在image captioning和VQA中大部分注意机制为top-down,这种方法很少考虑需要注意的区域是如何确定的。如Figure 1的左图。但是,关注图像中的显著物体和区域有助于生成更加生动自然的图像描述。
综上所述,本文提出了一种bottom-up和top-down的联合注意机制。
2. 模型
2.1 bottom-up attention model
运用Faster R-CNN(bottom-up attention)生成一系列的空间图像特征
Faster R-CNN
Faster R-CNN通过两步实现目标检测。
- RPN(Region Proposal Network)
一个小卷积在卷积网络中间层滑动,在每一个空间位置,生成一个未知类的对象的分和一个改进anchor boxes得到的bounding box,利用非极大值抑制获得一系列box proposals。
非极大值抑制:https://www.cnblogs.com/makefile/p/nms.html - 第二阶段运用region of interest (RoI) pooling为每个box proposal抓取14X14的特征图。然后这些特征图输入到CNN最后基层中,输出分类分数和bounding box。
Faster R-CNN详见:https://zhuanlan.zhihu.com/p/31426458
2.2 captioning model
caption生成模型由两个LSTM组成。第一层为视觉注意层,第二层为语言生成层。
2.2.1 Top-Down Attention LSTM
每个时间步骤,注意LSTM层的输入为:
其中,
第一层的注意LSTM最终生成注意权重
3.2.2 language LSTM
输入:
在每个时间步骤,可能的输出单词的条件分布为:
完全的序列输出分布为: