CVPR2021-RSTNet：自适应Attention的“看图说话”模型-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/119157650

RSTNet是为了解决Transformer在Image Captioning任务中处理grid特征时丢失二维位置信息和不恰当地关注视觉信息的问题。通过引入Grid-Augmented (GA) 和 Adaptive Attention (AA) 模块，RSTNet在COCO数据集上实现了State-of-the-Art的表现。GA模块增强视觉表示，而AA模块则动态调整视觉和语言信息的权重，以适应不同单词的生成需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

由于强大的建模能力，Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。但是基于grid特征，用Transformer结构处理Image Captioning任务时，会存在两个问题。

因为Transformer最开始被提出时是用来处理序列信息的，所以grid特征需要flatten之后才能送入到Transformer的Encoder中，这就导致了特征的二维相对位置信息被破坏；第二，由于有的单词是跟图片内容紧密相关的，而有的单词（比如 with）跟图片相关性不大，因此模型在生成单词的时候同等的关注视觉信息就会导致sub-optimal的问题。

为了解决这两个问题，作者提出了GA和AA两个模块，并将这两个模块嵌入到Transformer中形成RSTNet，在COCO数据集达到了SOTA的性能。

Image Captioning任务是什么？

Image Captioning 任务的定义是给定一幅图片，生成用来描述图片内容的文本。一个AI系统不仅需要对图片进行识别，也需要理解和解释看到的图片内容，并且能够像人一样描述出图片中的对象之间的关系。

论文和代码地址

论文：https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_RSTNet_Captioning_With_Adaptive_Attention_on_Visual_and_Non-Visual_Words_CVPR_2021_paper.html
代码：https://github.com/zhangxuying1004/RSTNet

Motivation

Image Captioning任务在特征使用方面，经历了grid→region→grid的过程，本文作者采用了grid特征，但是由于本文采用的结构是一个transformer-based的模型，而transformer又是针对序列任务提出的，所以在transformer中使用grid特征就需要把特征flatten（如上图a所示）

这就会导致一个问题，原来二维的图像特征变成一维的序列特征，空间信息丢失，造成sub-optimal的问题，因此作者提出了Grid-Augmented（GA） module，用grid之间的相对位置信息来增强特征的视觉表示。

Transformer能够捕捉视觉特征和序列之间的关系。然而，并非caption中的所有单词都是视觉单词，因此对所有单词都都相同程度的关注就会导致sub-optimal的问题（如上图b所示，很明显man是一个视觉单词，所以在生成的句子的时候应该更加关注这类单词，而with这种单词跟图像内容并没有什么关系，只需要根据语言的bias就可以学习到，所以这类单词在生成的时候就并不需要特别关注）。

基于这个现象，作者提出了Adaptive Attention（AA） module，用来衡量视觉信息和语言上下文信息对于生成细粒度caption的贡献。

最终，作者将这两个模块嵌入到了Transformer中，得到RSTNet，在MS COCO数据上，在线上和线下测试中，达到了SOTA的性能。

方法