SCAN:Stacked Cross Attention for Image-Text Matching 阅读笔记

最新推荐文章于 2024-08-17 01:13:32 发布

低调流年的微凉

最新推荐文章于 2024-08-17 01:13:32 发布

阅读量970

点赞数

分类专栏：跨模态检索文章标签：机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40680309/article/details/117164483

版权

跨模态检索专栏收录该内容

6 篇文章 4 订阅

订阅专栏

摘要：本文研究了图像-文本匹配的问题。推断对象或其他显著事物之间潜在语义对齐。和句子中相应的单词可以捕捉视觉和语言之间细粒度的相互作用，并使图像-文本匹配更容易解释。之前的工作要么简单地聚合所有可能的区域和单词对的相似性，而不不同地关注越来越不重要的单词或区域，要么使用多步骤注意过程来捕获有限数量较少的语义对齐。在本文中，我们提出了堆叠交叉注意，利用图像区域和单词作为上下文来发现句子的完整潜在排列，并推断图像-文本相似性。我们的方法在MSCOCO和Flickr30K数据集上实现了最先进的结果。在Flickr30K上，我们的方法在图像查询文本检索方面相对优于当前的最佳方法22.1%，在文本查询图像检索方面相对优于18.2%（基于召回@1）。在MS-COCO上，我们的方法相对提高了句子检索17.8%，图像检索相对提高了16.6%(基于使用5K测试集的Recall@1)。代码已在以下位置提供：https: //github.com/kuanghuei/SCAN.

一、图像-文本注意力：

二、文本-图像注意力：

三、算法流程：

1.给定一个图像和一个句子，将其表示为k个图像区域和n个单词，然后计算他们之间的cos距离

2.对s进行标准化

3.对s进行softmax归一化

4.计算关注的句子向量 $a_{i}^{t}$

5.计算区域和句子之间的相关性

6.整体文本和图像的相似性计算

或者

7.设计损失函数

把负样本改为最难负样本

四、特征表示:

1.图像区域表示：先用Faster R-CNN和Resnet101提取图像区域特征，对于每个区域，先用平均池化卷积为2048维的向量，然后再用全连接层转成h维的向量。

2.文本单词表示：先把每个单词表示为300维的向量，然后使用前向和反向GRU的平均值来表示这个单词

五、实验结果(fllickr30k):

六、图文匹配结果：

低调流年的微凉

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SCAN:Stacked Cross Attention for Image-Text Matching 阅读笔记

摘要：本文研究了图像-文本匹配的问题。推断对象或其他显著事物之间潜在语义对齐。和句子中相应的单词可以捕捉视觉和语言之间细粒度的相互作用，并使图像-文本匹配更容易解释。之前的工作要么简单地聚合所有可能的区域和单词对的相似性，而不不同地关注越来越不重要的单词或区域，要么使用多步骤注意过程来捕获有限数量较少的语义对齐。在本文中，我们提出了堆叠交叉注意，利用图像区域和单词作为上下文来发现句子的完整潜在排列，并推断图像-文本相似性。我们的方法在MSCOCO和Flickr30K数据集上实现了最先进的结果。在Flickr
复制链接

扫一扫

专栏目录

低调流年的微凉 CSDN认证博客专家 CSDN认证企业博客

码龄7年

13: 原创

14万+: 周排名

40万+: 总排名

2万+: 访问

: 等级

212: 积分

13: 粉丝

36: 获赞

19: 评论

90: 收藏

私信

关注

热门文章

分类专栏

最新评论

Large Graph Models: A Perspective阅读笔记
CSDN-Ada助手: 恭喜作者撰写了第13篇博客，标题为“Large Graph Models: A Perspective阅读笔记”。阅读笔记内容详实，观点独特，对大型图模型有着深刻的见解。希望作者能够继续保持创作的热情和努力，不断分享自己的学习和思考成果。建议作者在下一篇博客中，可以尝试结合实际案例或者对比分析，为读者提供更多实用的参考价值。期待作者更加精彩的作品！
Zotero——论文管理神器
zykkkw: 有些人的zotero可能不能改成6.0.*，得改成6.*，否则还是不兼容
Zotero——论文管理神器
低调流年的微凉: 手动输入即可
Zotero——论文管理神器
椿风呼啸: 请问博主，你的期刊显示下是怎么做到ICML 2020这种格式的呀
NIPS2020——Debiased Contrastive Learning 详细解读
qqqqqqqqqqqqd: 作者你好，在引理1部分：原文是无偏损失越小，应该是第二项越大

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。