SCAN:Stacked Cross Attention for Image-Text Matching 阅读笔记

摘要:本文研究了图像-文本匹配的问题。推断对象或其他显著事物之间潜在语义对齐。和句子中相应的单词可以捕捉视觉和语言之间细粒度的相互作用,并使图像-文本匹配更容易解释。之前的工作要么简单地聚合所有可能的区域和单词对的相似性,而不不同地关注越来越不重要的单词或区域,要么使用多步骤注意过程来捕获有限数量较少的语义对齐。在本文中,我们提出了堆叠交叉注意,利用图像区域和单词作为上下文来发现句子的完整潜在排列,并推断图像-文本相似性。我们的方法在MSCOCO和Flickr30K数据集上实现了最先进的结果。在Flickr30K上,我们的方法在图像查询文本检索方面相对优于当前的最佳方法22.1%,在文本查询图像检索方面相对优于18.2%(基于召回@1)。在MS-COCO上,我们的方法相对提高了句子检索17.8%,图像检索相对提高了16.6%(基于使用5K测试集的Recall@1)。代码已在以下位置提供https: //github.com/kuanghuei/SCAN.

一、图像-文本注意力:

二、文本-图像注意力:

三、算法流程:

1.给定一个图像和一个句子,将其表示为k个图像区域和n个单词,然后计算他们之间的cos距离

2.对s进行标准化

3.对s进行softmax归一化

4.计算关注的句子向量 a_{i}^{t} 

5.计算区域和句子之间的相关性

6.整体文本和图像的相似性计算

或者

7.设计损失函数

把负样本改为最难负样本

四、特征表示:

1.图像区域表示:先用Faster R-CNN和Resnet101提取图像区域特征,对于每个区域,先用平均池化卷积为2048维的向量,然后再用全连接层转成h维的向量。

2.文本单词表示:先把每个单词表示为300维的向量,然后使用前向和反向GRU的平均值来表示这个单词

五、实验结果(fllickr30k):

六、图文匹配结果:

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值