2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

摘要

        指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明,通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合,我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果以及一个轻量级的掩码预测器

一、介绍

        图像特征与文本特征的融合策略包括循环交互、跨模态注意力、多模态图推理、语言结构引导的上下文建模等。最近通过一个跨模态transformer解码器(图1(a))学习有效的跨模态对齐取得了性能提升。

        然而,跨模态交互只发生在特征编码之后,一个跨模态解码器只负责对齐视觉和语言特征。因此,以前的方法不能有效利用编码器中丰富的transformer层来挖掘有用的多模态上下文。为解决此问题,一种潜在的解决是利用一个视觉编码器网络在视觉编码期间共同嵌入语言和视觉特征。

        据此,我们提出一种语言感知的视觉transformer网络(LAVT),其中视觉特征与语言特征被一起编码,在每个空间位置感知相关的语言上下文。如图1(b),LAVT在一个现代视觉Transformer主干网络中充分利用多阶段设计,形成了一种分层的语言感知视觉编码方案。具体地,我们通过一个像素-单词注意力机制密集地将语言特征整合进视觉特征中,这发生在网络的每个阶段。有益的视觉-语言线索然后被之后的transformer块利用,如[35],在下一个编码器阶段。这种方法使我们放弃一个复杂的跨模态解码器,因为提取的语言感知的视觉特征可以很容易地使用一个轻量级的掩码预测器获得准确的分割掩码。

        本文的贡献如下:(1)我们提出了LAVT,一种基于transformer的参考图像分割框架,它可以执行语言感知的视觉编码来替代特征提取后的跨模态融合。(2)我们在参考图像分割的三个数据集上实现了最新的结果,论证了所提出方法的有效性和通用性。

 二、相关工作

三、方法

        图2论证了LAVT模型的结构,利用一个分层的视觉transformer来联合嵌入语言和视觉信息来促进跨模态对齐。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值