文章目录
1.前言
这篇文章是2018年发表在ECCV上的一篇文章,文章主要研究了图像-文本的匹配问题,将不同模态的区域图像和段落中的单词进行对齐,最终进行图像-句子和句子-图像双向检索。作者提出了SCAN的方法,接下来将对论文原理进行解读。
2.原理
先上论文的框架图:
2.1 Stacked Cross Attention(SCAN)
网络有两个输入,分别是图像特征集V = {v1, …, vk}和单词特征集E = {e1, …, en}
2.1.1 Image-Text Stacked Cross Attention.
先求图像特征和词特征的similarity :
【注:在代码中,有self.fc = nn.Linear(img_dim, embed_size)
规定了图像特征的输出向量长度为em