image-text matching(一)Context-Aware Multi-View Summarization Network for Image-Text Matching

最新推荐文章于 2024-08-12 19:10:29 发布

薛定猫的谔w

最新推荐文章于 2024-08-12 19:10:29 发布

阅读量1.3k

点赞数

分类专栏：多模态学习文章标签：深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109902169

版权

文章介绍了山东大学聂礼强组提出的CAMERA网络，用于解决图像-文本匹配的多视角描述问题。该模型包含自适应门控self-attention模块（AGSA）和Multi-View Summarization模块，以适应性地捕捉模态上下文信息并聚合区域特征。通过多样性正则化约束减少特征冗余，实现更准确的匹配。在Flickr30K和MS-COCO数据集上，CAMERA表现优越。

摘要由CSDN通过智能技术生成

背景

这篇文章是山东大学聂礼强组的工作，被ACM MM2020接收

动机

作者提到，图文匹配任务中，一张图像有多句与之同语义的captions，每句caption可以视为是从不同的角度来对图像内容进行刻画(在描述图像中不同的区域)，如下图的例子。这样一来，图像特征如何与多个来自不同视角的captions进行对齐是任务难点。
在这里插入图片描述

方法

本文提出名为CAMERA的网络模型，包含一个自适应门控self-attention模块AGSA来自适应地捕捉模态内上下文信息流、然后是一个Multi-View Summarization模块，从不同角度将区域级特征聚合为图像级特征。最后，作者基于此设计了一个图文匹配的方案。

模型总览

在这里插入图片描述

AGSA模块

在这里插入图片描述
在transformer模型中multi-head attention基础上改进而来，作者解释在Q、K矩阵上使用门控机制的动机：Q和K可能包含有噪声或无意义的信息。为了自适应地传递信息并抑制无用信息，因为设计了一种具有融合策略的自适应门机制。
两个模态中分别使用的AGSA，参数并不共享。

Multi-View Summarization模块

用于视觉特征的处理
最初通过bottom-up Feature Extraction得到 $V\in\R^{D\times R}$

最低0.47元/天解锁文章

薛定猫的谔w

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
image-text matching(一)Context-Aware Multi-View Summarization Network for Image-Text Matching

背景这篇文章是山东大学聂礼强组的工作，被ACM MM2020接收动机作者提到，图文匹配任务中，一张图像有多句与之同语义的captions，每句caption可以视为是从不同的角度来对图像内容进行刻画(在描述图像中不同的区域)，如下图的例子。这样一来，图像特征如何与多个来自不同视角的captions进行对齐是任务难点。方法本文提出名为CAMERA的网络模型，包含一个自适应门控self-attention模块AGSA来自适应地捕捉模态内上下文信息流、然后是一个Multi-View Summariza
复制链接

扫一扫

专栏目录