论文 Stacked Cross Attention for Image-Text Matching 浅析(SCAN方法)

1.前言

​ 这篇文章是2018年发表在ECCV上的一篇文章,文章主要研究了图像-文本的匹配问题,将不同模态的区域图像和段落中的单词进行对齐,最终进行图像-句子和句子-图像双向检索。作者提出了SCAN的方法,接下来将对论文原理进行解读。
图像与文本的匹配

2.原理

先上论文的框架图:
在这里插入图片描述

2.1 Stacked Cross Attention(SCAN)

网络有两个输入,分别是图像特征集V = {v1, …, vk}和单词特征集E = {e1, …, en}

2.1.1 Image-Text Stacked Cross Attention.

先求图像特征和词特征的similarity :
在这里插入图片描述
【注:在代码中,有self.fc = nn.Linear(img_dim, embed_size)规定了图像特征的输出向量长度为em

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值