PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

最新推荐文章于 2024-07-02 21:42:18 发布

masterleoo

最新推荐文章于 2024-07-02 21:42:18 发布

阅读量1k

点赞数 15

分类专栏：实例分割语义分割文章标签： transformer 深度学习人工智能计算机视觉神经网络 word2vec nlp

本文链接：https://blog.csdn.net/m0_48086806/article/details/134605975

版权

9 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1、Abstract

提出了VLT框架，以促进多模态信息之间的深度交互，并增强对视觉语言特征的整体理解。
为了应对语言表达的随机性和巨大多样性，提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。
为了在这些不同的comprehensions中找到最好的，从而生成更好的掩码，我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。
为了提高模型处理不同语言表达的能力，我们考虑inter-sample learning，明确赋予模型去理解同一object但不同语言表达的知识。
我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离，同时更加区分不同对象的特征。

在这里插入图片描述

对视觉特征和语言特征进行多模态融合
现有方法：首先，这一步没有充分利用单个单词的特征。其次，平铺的语言特征对于图像特征上的所有像素来说都是相同的，这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
Spatial-Dynamic Fusion (SDF) module：根据语言信息与相应像素信息之间的相互作用，为图像特征的不同位置产生不同的语言特征向量。

不采用fixed queries：这种固定的可学习的queries没有考虑referring segmentation的巨大多样性（输入图像和语言表达都是不受约束的，随机性非常高）；只是去检测整个图像中的所有目标，而非去关注language expression所指代的目标；不能提供有效的包含目标的信息
因此，采用了QGM，根据输入图像和language自适应的生成特定于input的queries（例如捕获关键信息，“blue/yellow”, “small/large”, “right/left”等）
QGM同时要加入图像的视觉信息，例如：只对language做self-attention无法区分“large”和“left”的重要性，因此在视觉信息的帮助下，生成多个不同的queries，表示给定language下的具有不同emphasized words的理解

输入：QGM模块生成的Fq和decoder的Response Fr
得到的Cq与Fr进行weighting，Cq表示的是Nq个query vector的confidence 分数，反映该vector与图像上下文以及预测的拟合程度，weighting是控制Fr对于mask decoding的影响
QGM+QBM：生成具有不同emphasis的queries+有选择性的融合这些queries到response中，协同工作，加强对vision和language的多样性的理解

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注