PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

1、Abstract

  • 提出了VLT框架,以促进多模态信息之间的深度交互,并增强对视觉语言特征的整体理解。

  • 为了应对语言表达的随机性和巨大多样性,提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。

  • 为了在这些不同的comprehensions中找到最好的,从而生成更好的掩码,我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。

  • 为了提高模型处理不同语言表达的能力,我们考虑inter-sample learning,明确赋予模型去理解同一object但不同语言表达的知识。

  • 我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离,同时更加区分不同对象的特征。
    在这里插入图片描述

2、整体架构

在这里插入图片描述
在这里插入图片描述

3、Spatial-Dynamic Multi-Modal Fusion

  • 对视觉特征和语言特征进行多模态融合
  • 现有方法:首先,这一步没有充分利用单个单词的特征。其次,平铺的语言特征对于图像特征上的所有像素来说都是相同的,这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
    在这里插入图片描述
  • Spatial-Dynamic Fusion (SDF) module:根据语言信息与相应像素信息之间的相互作用,为图像特征的不同位置产生不同的语言特征向量。
    在这里插入图片描述
    在这里插入图片描述

4、Query Generation Module

  • 不采用fixed queries:这种固定的可学习的queries没有考虑referring segmentation的巨大多样性(输入图像和语言表达都是不受约束的,随机性非常高);只是去检测整个图像中的所有目标,而非去关注language expression所指代的目标;不能提供有效的包含目标的信息

  • 因此,采用了QGM,根据输入图像和language自适应的生成特定于input的queries(例如捕获关键信息,“blue/yellow”, “small/large”, “right/left”等)

  • QGM同时要加入图像的视觉信息,例如:只对language做self-attention无法区分“large”和“left”的重要性,因此在视觉信息的帮助下,生成多个不同的queries,表示给定language下的具有不同emphasized words的理解
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

5、Query Balance Module

  • 输入:QGM模块生成的Fq和decoder的Response Fr
  • 得到的Cq与Fr进行weighting,Cq表示的是Nq个query vector的confidence 分数,反映该vector与图像上下文以及预测的拟合程度,weighting是控制Fr对于mask decoding的影响
  • QGM+QBM:生成具有不同emphasis的queries+有选择性的融合这些queries到response中,协同工作,加强对vision和language的多样性的理解
    在这里插入图片描述

6、Mask Decoder

在这里插入图片描述
在这里插入图片描述

7、Masked Contrastive Learning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8、可视化结果

在这里插入图片描述

  • 15
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值