背景
这篇文章是山东大学聂礼强组的工作,被ACM MM2020接收
动机
作者提到,图文匹配任务中,一张图像有多句与之同语义的captions,每句caption可以视为是从不同的角度来对图像内容进行刻画(在描述图像中不同的区域),如下图的例子。这样一来,图像特征如何与多个来自不同视角的captions进行对齐是任务难点。
方法
本文提出名为CAMERA的网络模型,包含一个自适应门控self-attention模块AGSA来自适应地捕捉模态内上下文信息流、然后是一个Multi-View Summarization模块,从不同角度将区域级特征聚合为图像级特征。最后,作者基于此设计了一个图文匹配的方案。
模型总览
AGSA模块
在transformer模型中multi-head attention基础上改进而来,作者解释在Q、K矩阵上使用门控机制的动机:Q和K可能包含有噪声或无意义的信息。为了自适应地传递信息并抑制无用信息,因为设计了一种具有融合策略的自适应门机制。
两个模态中分别使用的AGSA,参数并不共享。
Multi-View Summarization模块
用于视觉特征的处理
最初通过bottom-up Feature Extraction得到 V ∈ R D × R V\in\R^{D\times R} V∈R