Motivation
1,只有一小部分与共同语义相关的区域或词,如果将它们全部整合在一起,就会干扰目标语义,从而导致语义失调。
2,并不是所有的片段都支持特定的共享语义,因为它们中的许多与之无关,如果不相关的片段被聚合,共享语义或多或少会受到干扰。
3,如果我们将焦点集中在一个方向上,就会导致对长文本或复杂图像的偏好。这是因为长文本或复杂图像包含更多的信息,从而更有可能得到较高的查询响应。所以我们采用双向度量,
即算出两个方向的相似度,然后进行相加。
Framework
- 我们首先为每个区域预先分配注意力分数,它是通过计算区域和单词之间的余弦相似度,并使用softmax激活对其进行归一化来实现的。
- 基于内部模式识别相关片段。
我们以Text-to-Image Focal Attention为例,我们设每张图片有n个