Motivation
1,现有的注意机制只关注图像区域的视觉特征,而忽略了图像中的相对位置信息。
2,物体在整幅图像中的相对位置是一个重要而有用的线索,
Contributions
1,我们整合区域的位置信息来研究图像中的物体和句子中的单词之间的对应关系。
2,我们提出了一种位置聚焦的注意机制,为图像区域生成有价值的位置特征,位置特征与视觉特征共同构成了对图像区域更可靠、更完整的表达。
Framework
- Initial Position Representation
我们把图像表示为 ,其中n是区域的数目,我们把图片分为k * k个块,块的次序