论文 Stacked Cross Attention for Image-Text Matching 浅析（SCAN方法）

最新推荐文章于 2024-04-11 10:58:56 发布

大胡子爷爷黎曼的小弟

最新推荐文章于 2024-04-11 10:58:56 发布

阅读量2.6k

点赞数 8

文章标签： pytorch 深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lukas_ten/article/details/114287752

版权

文章目录

1.前言

这篇文章是2018年发表在ECCV上的一篇文章，文章主要研究了图像-文本的匹配问题，将不同模态的区域图像和段落中的单词进行对齐，最终进行图像-句子和句子-图像双向检索。作者提出了SCAN的方法，接下来将对论文原理进行解读。
图像与文本的匹配

2.原理

先上论文的框架图：
在这里插入图片描述

2.1 Stacked Cross Attention(SCAN)

网络有两个输入，分别是图像特征集V = {v1, …, vk}和单词特征集E = {e1, …, en}

2.1.1 Image-Text Stacked Cross Attention.

先求图像特征和词特征的similarity ：
在这里插入图片描述
【注：在代码中，有self.fc = nn.Linear(img_dim, embed_size)规定了图像特征的输出向量长度为em

最低0.47元/天解锁文章

大胡子爷爷黎曼的小弟

关注

8
点赞
踩
19

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。