关注公众号,发现CV技术之美
本篇分享 ECCV 2022 论文『OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers』,华科Ð提出首个用于伪装实例分割的一阶段Transformer的框架OSFormer!代码已开源!
详细信息如下:
论文地址:https://arxiv.org/abs/2207.02255[1]
代码地址:https://github.com/PJLallen/OSFormer[2]
01
摘要
在本文中,作者提出了OSFormer,这是第一个用于伪装实例分割(CIS)的一阶段Transformer框架。OSFormer基于两个关键设计。
首先,通过引入位置引导查询和混合卷积前馈网络,作者设计了一个位置感知Transformer(LST)来获取位置标签和实例感知参数。
其次,作者开发了一种从粗到精的融合(CFF),以合并来自LST编码器和CNN主干的不同上下文信息。耦合这两个组件使OSFormer能够有效地混合局部特征和长期上下文依赖,以预测伪装实例。
与两阶段框架相比,本文的OSFormer在不需要大量训练数据的情况下达到了41%的AP,并实现了良好的收敛效率。
02
Motivation
伪装是一种强大且广泛的手段,可以避免来自生物学的检测或识别。在自然界中,伪装对象已经进化出一套隐藏策略来欺骗猎物或捕食者的感知和认知机制,例如背景匹配、自阴影隐藏、擦除阴影、破坏性着色等。与一般的目标检测相比,这些防御行为使得伪装目标检测(COD)成为一项非常具有挑战性的任务。COD的目标是区分与背景具有高度内在相似性的伪装物体。
由于COD10K、CAMO、CAMO++和NC4K等大规模标准基准的建立,COD的性能得到了显著的提高。然而,COD仅将伪装物体从场景中以对象的级别进行分离,而忽略进一步的实例级别标识。最近,研究者提出了一个新的伪装实例分割(CIS)基准和CFL框架。捕获伪装实例可以在真实场景中提供更多线索(例如语义类别、对象数量),因此CIS更具挑战性。
与通用实例分割相比,CIS需要在更复杂的场景中执行,具有较高的特征相似性,并产生类别不可知mask。此外,各种实例可能在场景中显示不同的伪装策略,并且将它们结合起来可能形成相互伪装。这些衍生的整体伪装使CIS任务更加艰巨。当人类注视着一个伪装得很深的场景时,视觉系统会本能地扫描整个场景中的一系列局部范围,以寻找有价值的线索。受这种视觉机制的启发,作者提出了一种新的位置感知CIS方法,该方法从全局角度仔细捕获所有位置(即局部上下文)的关键信息,并直接生成伪装实例掩码(即一阶段模型)。
由于transformer在视觉领域的兴起,可以利用自注意力和交叉注意力来捕捉长期依赖关系,并构建全局内容感知交互。尽管transformer模型在一些密集预测任务上表现出了强大的性能,但它需要包含大规模的训练数据和更长的训练周期。然而,作为一项全新的下游任务,目前只有有限的实例级训练数据可用。
为此,作者提出了一种基于的位置感知Transformer(LST),以在更少的训练样本下实现更快的收敛和更高的性能。为了动态生成每个输入图像的位置引导查询,作者将LST编码器输出的多尺度全局特征网格化为一组具有不同局部信息的特征块。与vanilla DETR中的零初始化对象查询相比,提出的位置引导查询可以专注于位置特定的特征,并通过交叉注意与全局特征交互,以获得实例感知嵌入。
该设计有效地加快了收敛速度,显著提高了伪装实例的检测。为了增强局部感知和相邻token之间的相关性,作者将卷积运算引入标准前馈网络,将其称为混合卷积前馈网络(BC-FFN)。因此,本文基于LST的模型可以无缝集成局部和全局上下文信息,并有效地提供位置敏感特征来分割伪装实例。