Referring Image Segmentation
文章平均质量分 60
lynn_Dai
这个作者很懒,什么都没留下…
展开
-
【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension
之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法,分为两个阶段,第一步,模型根据实体词和属性词来感知表达式中描述的所有实体,第二步,模型进一步推理实体之间的关系,以突出所指对象并抑制其他不匹配的实体。(1)提出了一个跨模态渐进理解(CMPC)模块,首先感知表达式所有实体,然后利用输入表达式的关系词突出所指对象,抑制其他不相关的,为所指对象产生有区别的特征表示。(2)提出了一个文本引导特征交换(TGFE)模块,在语言特征的引导下进行多层次特征之间的自适应信息交流,原创 2022-06-22 15:26:12 · 1358 阅读 · 0 评论 -
【arxiv2022】LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
在传统的范式中,Transformer在提高RIS方面的潜力还远远没有得到充分的探索。具体来说,跨模态交互只发生在特征编码之后。而跨模态解码器只负责对齐视觉和语言特征。以前的方法不能有效地利用编码器中的Transformer层来挖掘有用的多模态上下文。为了解决这些问题,提出利用视觉编码器网络在视觉编码期间联合嵌入语言和视觉特征。提出了一种语言感知视觉转换器(LAVT)网络,在该网络中,视觉特征与语言特征一起编码,能够“感知”每个空间位置的相关语言上下文。LAVT充分利用了vision Transform原创 2022-06-22 15:24:02 · 458 阅读 · 0 评论 -
【arxiv2022】MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation
现有的方法,存在以下不足提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。原创 2022-06-22 15:16:54 · 379 阅读 · 0 评论 -
【cvpr2021】Locate then Segment: A Strong Pipeline for Referring Image Segmentation
以前的方法网络架构和实验实践越来越复杂,使得算法分析和比较变得越来越困难。此外,他们没有明确定位语言表达引导的参考对象,只利用耗时的后处理 DCRF 来生成最终的细化分割。提出一种新的方法,将RIS解耦为两个子序列任务:(a)引用对象位置预测,(b)对象分割掩码生成。模型首先融合视觉和语言特征以获得跨模态特征。对于(a),提出了一个定位模块来直接获得与表达对应的视觉内容。这样的对象先验将用作后续分割模块的视觉位置指导。对于 (b),将对象先验与跨模态特征连接起来,并利用轻量级 ConvNets 来获得最终的原创 2022-06-22 15:15:46 · 360 阅读 · 1 评论 -
【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation
模型在不同层次上构建了语言和视觉特征之间的深度交互,极大地增强了多模态特征的融合和利用。此外,所提出的模块是轻量级的,其参数大小大致相当于七个卷积层。原创 2022-06-22 15:14:26 · 1085 阅读 · 0 评论 -
【cvpr2022】ReSTR: Convolution-free Referring Image Segmentation Using Transformers
1、以前的方法在处理每种模态中语义实体之间的长期交互方面存在困难。RIS需要捕捉这种交互,因为语言表达通常涉及到复杂的实体之间的关系,以精确地指出目标区域。在这方面,cnn和rnn由于其基本构建模块的局部性而受到限制。2、现有模型难以对两种模态之间复杂的相互作用进行建模。它们通过拼接-卷积运算聚合视觉和语言特征,它无法足够灵活有效地处理大量的各种RIS场景。1、ReSTR通过transformer提取视觉和语言特征。视觉编码器和语言编码器分别以一组不重叠的图像块和一组文字嵌入块作为输入,提取它们的特征,同原创 2022-06-22 15:11:11 · 683 阅读 · 0 评论 -
【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation
文章地址:CRISGithub:https://github.com/DerrickWang005/CRIS.pytorch1、现有的方法利用外部知识促进学习,主要采用单模态的预训练(如预训练的图像或文本编码器),缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力,这有助于多模态任务。2、由于图像级预测与像素级预测的差异,直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。利用 CLIP 模型的强原创 2022-06-22 14:54:55 · 3149 阅读 · 0 评论