摘要:本文研究了图像-文本匹配的问题。推断对象或其他显著事物之间潜在语义对齐。和句子中相应的单词可以捕捉视觉和语言之间细粒度的相互作用,并使图像-文本匹配更容易解释。之前的工作要么简单地聚合所有可能的区域和单词对的相似性,而不不同地关注越来越不重要的单词或区域,要么使用多步骤注意过程来捕获有限数量较少的语义对齐。在本文中,我们提出了堆叠交叉注意,利用图像区域和单词作为上下文来发现句子的完整潜在排列,并推断图像-文本相似性。我们的方法在MSCOCO和Flickr30K数据集上实现了最先进的结果。在Flickr30K上,我们的方法在图像查询文本检索方面相对优于当前的最佳方法22.1%,在文本查询图像检索方面相对优于18.2%(基于召回@1)。在MS-COCO上,我们的方法相对提高了句子检索17.8%,图像检索相对提高了16.6%(基于使用5K测试集的Recall@1)。代码已在以下位置提供:https: //github.com/kuanghuei/SCAN.
一、图像-文本注意力:
二、文本-图像注意力:
三、算法流程:
1.给定一个图像和一个句子,将其表示为k个图像区域和n个单词,然后计算他们之间的cos距离
2.对s进行标准化
3.对s进行softmax归一化
4.计算关注的句子向量
5.计算区域和句子之间的相关性
6.整体文本和图像的相似性计算
或者
7.设计损失函数
把负样本改为最难负样本
四、特征表示:
1.图像区域表示:先用Faster R-CNN和Resnet101提取图像区域特征,对于每个区域,先用平均池化卷积为2048维的向量,然后再用全连接层转成h维的向量。
2.文本单词表示:先把每个单词表示为300维的向量,然后使用前向和反向GRU的平均值来表示这个单词