image-text matching(一)Context-Aware Multi-View Summarization Network for Image-Text Matching

背景

这篇文章是山东大学聂礼强组的工作,被ACM MM2020接收

动机

作者提到,图文匹配任务中,一张图像有多句与之同语义的captions,每句caption可以视为是从不同的角度来对图像内容进行刻画(在描述图像中不同的区域),如下图的例子。这样一来,图像特征如何与多个来自不同视角的captions进行对齐是任务难点。
在这里插入图片描述

方法

本文提出名为CAMERA的网络模型,包含一个自适应门控self-attention模块AGSA来自适应地捕捉模态内上下文信息流、然后是一个Multi-View Summarization模块,从不同角度将区域级特征聚合为图像级特征。最后,作者基于此设计了一个图文匹配的方案。

模型总览

在这里插入图片描述

AGSA模块

在这里插入图片描述
在transformer模型中multi-head attention基础上改进而来,作者解释在Q、K矩阵上使用门控机制的动机:Q和K可能包含有噪声或无意义的信息。为了自适应地传递信息并抑制无用信息,因为设计了一种具有融合策略的自适应门机制。
两个模态中分别使用的AGSA,参数并不共享。

Multi-View Summarization模块

用于视觉特征的处理
最初通过bottom-up Feature Extraction得到 V ∈ R D × R V\in\R^{D\times R} V

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值