图文匹配Visual-Semantic Matching by Exploring High-Order Attention and Distraction

这篇论文提出了一种新的图文匹配方法,通过构建图并利用GCN捕捉高阶语义信息,同时考虑视觉干扰的影响。通过局部和全局匹配以及基于干扰的重新排名,提高了匹配准确性。
摘要由CSDN通过智能技术生成

背景

本篇论文来自北大王选计算机研究所,接收于CVPR2020

动机

本文的出发点主要是两个:
1.发掘高阶语义信息(object-predicatesubject triplet (物体之间)主谓宾三元组信息、object-attribute pair 实体-属性对信息)。这个点其实比较常见,这方面的工作已经挺多了
2.确定图文对的匹配分数时把视觉干扰(visual distraction)带来的影响考虑进去。这个点比较有意思。
作者针对这两个主要的motivation,也举了一些例子
在这里插入图片描述
3列从左到右,依次是caption,ground-truth image,mismatch image.
3行从上到下,前两行想要说明高阶语义的重要性。物体的属性、句子的谓词等等。最后一行是所谓的视觉干扰,从这个例子不难发现,尽管图像region与文本查询token的相关性很高,但从全局语义上来说是mismatch的。作者把这种现象归结为mismatch图像中还存在着大量与文本无关的显著区域所形成的视觉干扰项在计算匹配分数时被忽略掉了。

架构

在这里插入图片描述
从该图中不难看出,作者对视觉模态、语言模态中的元素分别独立建图,然后使用GCN进行特征提取,这样获取的主要是局部特征。此外还通过LSTM、Faster-RCNN分别提取到全局特征用于后续的融合。

方法

build graph

两个模态的处理方式是类似的,这里就以文本模态为例进行说明。
首先将文本也就是句子,做成token embedding之后,得到句子的特征表示,这些tokens用作建图的顶点集V。作者把这些顶点分成3类,物体节点(object node)、属性节点(attribute node)和关系节点(relation node,这里的话也就是指谓词)。这个还好说,边集E又是怎么构造的呢?
在这里插入图片描述
如果物体 o i o_i oi具备属性 a i a_i ai

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值