2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

最新推荐文章于 2024-03-19 20:02:17 发布

VIP文章 weixin_42653320

最新推荐文章于 2024-03-19 20:02:17 发布

阅读量4.9k

点赞数 2

分类专栏：视觉语言融合文章标签：计算机视觉 transformer 深度学习

本文链接：https://blog.csdn.net/weixin_42653320/article/details/124401205

版权

摘要

指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明，通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合，我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果以及一个轻量级的掩码预测器。

一、介绍

图像特征与文本特征的融合策略包括循环交互、跨模态注意力、多模态图推理、语言结构引导的上下文建模等。最近通过一个跨模态transformer解码器（图1(a)）学习有效的跨模态对齐取得了性能提升。

然而，跨模态交互只发生在特征编码之后，一个跨模态解码器只负责对齐视觉和语言特征。因此，以前的方法不能有效利用编码器中丰富的transformer层来挖掘有用的多模态上下文。为解决此问题，一种潜在的解决是利用一个视觉编码器网络在视觉编码期间共同嵌入语言和视觉特征。

据此，我们提出一种语言感知的视觉transformer网络(LAVT)，其中视觉特征与语言特征被一起编码，在每个空间位置感知相关的语言上下文。如图1(b)，LAVT在一个现代视觉Transformer主干网络中充分利用多阶段设计，形成了一种分层的语言感知视觉编码方案。具体地，我们通过一个像素-单词注意力机制密集地将语言特征整合进视觉特征中，这发生在网络的每个阶段。有益的视觉-语言线索然后被之后的transformer块利用，如[35]，在下一个编码器阶段。这种方法使我们放弃一个复杂的跨模态解码器，因为提取的语言感知的视觉特征可以很容易地使用一个轻量级的掩码预测器获得准确的分割掩码。

本文的贡献如下：（1）我们提出了LAVT，一种基于transformer的参考图像分割框架，它可以执行语言感知的视觉编码来替代特征提取后的跨模态融合。（2）我们在参考图像分割的三个数据集上实现了最新的结果，论证了所提出方法的有效性和通用性。

二、相关工作

三、方法

图2论证了LAVT模型的结构，利用一个分层的视觉transformer来联合嵌入语言和视觉信息来促进跨模态对齐。

最低0.47元/天解锁文章

weixin_42653320

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

摘要指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明，通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合，我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果以及一个轻量级的掩码预测器。一、介绍图像特征与文本特征的融合策略包括循环交互、跨模态注意力、多模态图推理、语言结构引导的上下文建模...
复制链接

扫一扫