【论文阅读】Visual Semantic Reasoning for Image-Text Matching

该篇论文介绍了VisualSemanticReasoning for Image-Text Matching模型,通过建立图像区域间的联系,利用GCN进行语义推理,结合门和记忆机制生成全局表示。实验结果展示了在MS-COCO和Flickr30K等数据集上的性能。
摘要由CSDN通过智能技术生成

论文发表时间:2019
论文作者:Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li and Yun Fu
论文地址:https://openaccess.thecvf.com
代码地址:https://github.com/KunpengLi1994/VSRN

介绍

    考虑到当前图文匹配缺少图像全局语义概念(就像文中标题一样),作者提出首先建立图像区域之间的联系,再使用图卷积网络进行推理,生成具有语义关系的特征。随后使用门和记忆机制对这些关系增强的特征进行全局予以推理,选择有区别的信息并逐步生成全局场景表示

模型

    整体结构如下图所示:

    分成几步:

  • 自下而上的注意力模型生成的图像区域及其特征
  • VSRN首先在这些图像区域之间建立联系,并使用图形卷积网络(GCN)进行推理,以生成具有语义关系信息的特征
  • 对这些关系增强的特征进行全局语义推理,以选择有区别的信息,并过滤掉不重要的信息,从而生成整个图像的最终表示
  • 对于文本标题部分,我们学习使用RNNs表示句子,最终通过图像-句子匹配和句子生成的联合优化对整个模型进行训练

图像特征表示

    自下而上的注意力模型Faster-RCNN

    V = { v 1 , . . . , v k } V=\{v_{1},...,v_{k}\} V={ v1,...,vk} v i = W f f i + b f v_{i}=W_{f}f_{i}+b_{f} vi=Wffi+bf

文本特征表示

    双向GRU网络

区域关系推理

    这一部分使用到了图卷积网络GCN

    原GCN中使用的邻接矩阵在本文中用亲和矩阵替代,计算公式为

    R ( v i , v j ) = φ ( v i ) T ϕ ( v j ) R(v_{i},v_{j})=\varphi (v_{i})^{T}\phi (v_{j}) R(vi,vj)=φ(vi)Tϕ(vj)
    其中 φ ( v i ) = W φ v i \varphi (v_{i})=W_{\varphi}v_{i} φ(v

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值