CVPR2021-RSTNet:自适应Attention的“看图说话”模型

RSTNet是为了解决Transformer在Image Captioning任务中处理grid特征时丢失二维位置信息和不恰当地关注视觉信息的问题。通过引入Grid-Augmented (GA) 和 Adaptive Attention (AA) 模块,RSTNet在COCO数据集上实现了State-of-the-Art的表现。GA模块增强视觉表示,而AA模块则动态调整视觉和语言信息的权重,以适应不同单词的生成需求。
摘要由CSDN通过智能技术生成


0

写在前面

由于强大的建模能力,Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。但是基于grid特征,用Transformer结构处理Image Captioning任务时,会存在两个问题。

因为Transformer最开始被提出时是用来处理序列信息的,所以grid特征需要flatten之后才能送入到Transformer的Encoder中,这就导致了特征的二维相对位置信息被破坏;第二,由于有的单词是跟图片内容紧密相关的,而有的单词(比如 with)跟图片相关性不大,因此模型在生成单词的时候同等的关注视觉信息就会导致sub-optimal的问题。

为了解决这两个问题,作者提出了GA和AA两个模块,并将这两个模块嵌入到Transformer中形成RSTNet,在COCO数据集达到了SOTA的性能。

Image Captioning任务是什么?

Image Captioning 任务的定义是给定一幅图片,生成用来描述图片内容的文本。一个AI系统不仅需要对图片进行识别,也需要理解和解释看到的图片内容,并且能够像人一样描述出图片中的对象之间的关系。

1

论文和代码地址

论文:https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_RSTNet_Captioning_With_Adaptive_Attention_on_Visual_and_Non-Visual_Words_CVPR_2021_paper.html
代码:https://github.com/zhangxuying1004/RSTNet

2

Motivation

Image Captioning任务在特征使用方面,经历了grid→region→grid的过程,本文作者采用了grid特征,但是由于本文采用的结构是一个transformer-based的模型,而transformer又是针对序列任务提出的,所以在transformer中使用grid特征就需要把特征flatten(如上图a所示)

这就会导致一个问题,原来二维的图像特征变成一维的序列特征,空间信息丢失,造成sub-optimal的问题,因此作者提出了Grid-Augmented(GA) module,用grid之间的相对位置信息来增强特征的视觉表示。

Transformer能够捕捉视觉特征和序列之间的关系。然而,并非caption中的所有单词都是视觉单词,因此对所有单词都都相同程度的关注就会导致sub-optimal的问题(如上图b所示,很明显man是一个视觉单词,所以在生成的句子的时候应该更加关注这类单词,而with这种单词跟图像内容并没有什么关系,只需要根据语言的bias就可以学习到,所以这类单词在生成的时候就并不需要特别关注 )。

基于这个现象,作者提出了Adaptive Attention(AA) module,用来衡量视觉信息和语言上下文信息对于生成细粒度caption的贡献。

最终,作者将这两个模块嵌入到了Transformer中,得到RSTNet,在MS COCO数据上,在线上和线下测试中,达到了SOTA的性能。

3

方法

上图为RSTNet的总体结构,视觉特征用GA模块增强视觉表示,语言signal是用预训练的BERT模型提取,AA模块用来衡量视觉和语言的signal对于预测词语时的重要性。

3.1. Grid Feature Representation

对于给定的 个grid,以前的transformer就是直接将他们flatten,然后送入到encoder中,但是这么做会损失二维的位置信息,因此作者提出了GA模块,来建模相对位置关系。

首先,作者对每个grid都计算了一对二维的相对位置,其中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值