《Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers》简述

引言

  最先进的实例分割方法通常遵循Mask R-CNN范式,第一阶段检测边界框,然后第二阶段分割实例掩码。然而,本文注意到,大多数性能的改进来自于更好的主干架构设计,而在从目标检测中获得感兴趣区域(Region-of-Interest)特征后,很少关注实例掩码回归,本文观察到很多分割错误是由重叠对象引起的,特别是属于同一类的对象实例,这是因为每个实例掩码都是单独回归的。
  本文提出了双层卷积网络(BCNet),如图1所示:
在这里插入图片描述
  BCNet在提取ROI后,同时对遮挡区域(occluder)和部分遮挡对象(occludee)进行回归,将属于遮挡区域的像素分组,作为被遮挡对象的像素,但分别在两个不同的图像层中,因此自然地解耦了两个对象的边界,并在掩码回归阶段考虑了它们之间的相互作用
以往的方法通过非最大抑制或额外的后处理来解决相邻物体之间的掩码冲突,因此,它们的结果在边界上过于光滑,或者在相邻物体之间显示出很小的间隙。此外,由于感兴趣区域的感受野观察多个属于同一类的目标,当遮挡区域作为被遮挡对象的一部分被包含进来时,传统的掩码头设计无法解决这种冲突,留下了很大的误差,如图2所示:
在这里插入图片描述
  图3比较了本文的BCNet架构与以前的掩码头设计:
在这里插入图片描述
  BCNet由两个级联结构的GCN层组成,每个层分别回归遮挡和部分遮挡对象的掩码和边界,使用GCN是因为GCN可以考虑像素之间的非局部关系,允许在存在遮挡区域的情况下跨像素传播信息。在相同的ROI内,明确的双层遮挡-遮挡关系建模也使最终的分割结果比以前的方法更具有可解释性。对于对象检测器,使用FCOS,因为它具有高效的内存和运行时间。
本文还提供了第一个大规模遮挡感知实例分割数据集。

相关工作

  Instance Segmentation:两阶段实例分割方法首先检测边界框,然后对每个ROI区域进行分割,取得了最先进的性能。FCIS在实例建议中引入了位置敏感的分数图,用于掩码分割;Mask R-CNN扩展了Faster R-CNN的FCN分支,用于分割检测框中的目标;PANet进一步集成了FPN的多层次特征,增强了特征表示;CenterMask基于检测器FCOS,引入一个SAG-Mask分支。相比之下,本文的BCNet是一个双层掩码预测网络,用于解决两阶段实例分割中严重遮挡和重叠对象的问题。
单阶段实例分割方法去掉了边界盒检测和特征re-pooling步骤。AdaptIS为位于点建议上的对象生成掩码;PolarMask通过实例中心分类和密集距离回归在极坐标下对实例掩码进行建模;YOLOACT引入了每个实例系数的原型掩码;SOLO将“实例类别”的概念应用到根据位置和大小直接输出实例掩码。这些单阶段方法比两阶段方法的程序更简单,效率更高,但准确度较低。
  Occlusion Handling:SeGAN通过分割和生成物体的不可见部分来学习遮挡模式;OCFusion使用了一个额外的分支来建模实例融合过程,以取代检测置信的全景分割。BCNet通过在形状和外观上显式地建模遮挡模式来解决遮挡问题。这使得分割模型具有较强的遮挡感知和推理能力。
  Amodal Instance Segmentation:不同于传统的分割只关注可见区域,模态实例分割可以预测对象实例的遮挡部分。BCNet通过预测完整的对象分段将相同ROI中的重叠对象解耦成两个不相交的图层

方法

  图4给出了BCNet的整体框架:
在这里插入图片描述
  模型分为三个部分:(1)Backbone(采用ResNet)+ FPN用于ROI特征提取;(2)负责预测包围盒的目标检测头作为实例建议,这里采用FCOS作为目标检测器;(3)感知遮挡的掩码头BCNet采用双层GCN结构解耦重叠关系,并对目标检测分支获得的实例建议进行分段。
  整体过程如下:
  1.首先输入单张图像,利用配备FPN的ResNet提取图片特征;
  2.然后,目标检测头预测具有位置的边界框以及潜在实例的类别,并为BCNet准备裁剪的ROI特征以产生分割掩码
  3.实例分割网络BCNet由级联状的双图层神经网络组成:第一个图层对感兴趣目标区域内遮挡物体(Occluder)的形状和外观进行显式建模,该层图卷积网络包含四层,即卷积层(卷积核大小3x3)、图卷积层(Non-local Layer)以及末尾的两个卷积(卷积核大小3x3)。第一个图卷积网络输入感兴趣目标区域特征,输出感兴趣目标框中遮挡物体的边界和掩码。第二个图层结合第一个图卷积网络(用于对遮挡物体建模)已经提取的遮挡物体信息(包括遮挡物的Boundary和Mask),具体做法是将步骤2中得到的感兴趣目标区域特征与经过第一个图卷积网络中最后一层卷积后的特征3a相加,得到新的特征,并将其作为第二个图卷积网络(用于被遮挡物分割)的输入。第二个图卷积网络与第一个图卷积网络结构相同,构成级联网络关系。该操作将遮挡与被遮挡关系同时考虑进来,能有效地区分遮挡物与被遮挡物的相邻物体边界,最终输出目标区域被遮挡目标物体(Occludee)的分割结果。

实验

  实验主要是在COCO、COCO-OCC(作者为了进一步研究遮挡处理的分割性能,提出了一个子集分割,包含1005张从验证集(5k张图像)中提取的图像)、COCOA(COCO的一个子部分)和KINS(建立在原始的KITTI之上,是交通场景中最大的模态分割基准)以及自己合成了一个包含100K图像的大规模实例分割数据集上进行实验。
表1在第一个GCN层上验证了不同组件对显式遮挡建模的有效性:
在这里插入图片描述
  表2验证了第二个GCN层:
在这里插入图片描述
  表3还揭示了GCN相对于FCN的优势:
在这里插入图片描述
  表4研究了目标检测器对BCNet的影响:
在这里插入图片描述
  表5至表8比较了与其他的state-of-the-art方法:
在这里插入图片描述
  图7展示了COCO上CenterMask(第一行)和BCNet(第二行)的可视化结果对比:
在这里插入图片描述

总结

  本文是针对遮挡问题,在实例分割方面的一篇论文,指出在之前的实例分割方法上,比较注重如何设计更好的骨干网络以及高低层特征的融合机制或级联结构,而忽略了掩码预测分支,本文通过将图像中感兴趣区域建模为两个重叠图层,提出遮挡感知下的双图层实例分割网络BCNet,第一层GCN层检测遮挡对象,第二层GCN层推理被部分遮挡的目标物体,通过显式建模自然地将遮挡和被遮挡物体的边界解耦,从实验结果来看,效果存在提升,但也没有文章所说的大幅提升,另外说是轻量化并且工业界可行,但在本文内容并没有看到相关的改进点以及FPS或FLOPs的说明。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值