【论文阅读】Visual Semantic Reasoning for Image-Text Matching

ccc_irene

已于 2022-05-25 19:37:10 修改

阅读量1.9k

点赞数

分类专栏：图文匹配文章标签：深度学习自然语言处理神经网络图文匹配

于 2021-10-12 15:36:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41433316/article/details/120723454

版权

该篇论文介绍了VisualSemanticReasoning for Image-Text Matching模型，通过建立图像区域间的联系，利用GCN进行语义推理，结合门和记忆机制生成全局表示。实验结果展示了在MS-COCO和Flickr30K等数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Visual Semantic Reasoning for Image-Text Matching

论文发表时间：2019
论文作者：Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li and Yun Fu
论文地址：https://openaccess.thecvf.com
代码地址：https://github.com/KunpengLi1994/VSRN

介绍

考虑到当前图文匹配缺少图像全局语义概念（就像文中标题一样），作者提出首先建立图像区域之间的联系，再使用图卷积网络进行推理，生成具有语义关系的特征。随后使用门和记忆机制对这些关系增强的特征进行全局予以推理，选择有区别的信息并逐步生成全局场景表示

模型

整体结构如下图所示：

分成几步：

自下而上的注意力模型生成的图像区域及其特征
VSRN首先在这些图像区域之间建立联系，并使用图形卷积网络(GCN)进行推理，以生成具有语义关系信息的特征
对这些关系增强的特征进行全局语义推理，以选择有区别的信息，并过滤掉不重要的信息，从而生成整个图像的最终表示
对于文本标题部分，我们学习使用RNNs表示句子，最终通过图像-句子匹配和句子生成的联合优化对整个模型进行训练

图像特征表示

自下而上的注意力模型Faster-RCNN

$V=\{v_{1},...,v_{k}\}$ ， $v_{i}=W_{f}f_{i}+b_{f}$

文本特征表示

双向GRU网络

区域关系推理

这一部分使用到了图卷积网络GCN

原GCN中使用的邻接矩阵在本文中用亲和矩阵替代，计算公式为

$R(v_{i},v_{j})=\varphi (v_{i})^{T}\phi (v_{j})$
其中 $\varphi (v_{i})=W_{\varphi}v_{i}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。