《MOTS: Multi-Object Tracking and Segmentation》简述

引言

  Bounding box级跟踪性能已经达到饱和,只有在移动到像素级别时才能进一步改进。因此,本文建议将检测、分割和跟踪视为需要一起考虑的相互关联的问题。用于训练和评估目标分割模型的数据集通常不提供关于视频数据的标注,甚至不提供关于不同图像中对象身份的信息。另一方面,多目标跟踪的常用数据集仅提供对象的边界框注释。这些可能太过于粗糙,例如,当物体被部分遮挡时,它们的边界框包含来自其他物体的更多信息而不是自身,如图1所示:
在这里插入图片描述
  因此本文做出如下贡献:
  (1) 基于流行的KITTI和MOTChallenge数据集,为解决MOTS任务的训练和评估方法提供了两个具有时间一致性对象实例分割的新数据集。
  (2)提出了一种新的soft多目标跟踪和分割准确度(sMOTSA)测量方法,可以同时对新任务的各个方面进行评估。
  (3)提出了TrackR-CNN作为一种解决检测、跟踪和分割问题的基线方法,并将其与现有的工作进行了比较。
  (4)证明了新数据集在像素级多对象跟踪器的端到端训练中的有用性。

相关工作

  多目标跟踪数据集:许多MOT数据集专注于街景,例如KITTI跟踪数据集,其中包含来自车载摄像头的视频;MOTChallenge数据集显示了来自各种不同视角的行人。UA-DETRAC也有街景,但仅包含车辆标注。另一个MOT数据集是PathTrack,它提供了不同场景中人体轨迹的标注。PoseTrack包含视频中多人的关节位置标注。这些数据集都没有为带注释的对象提供分割掩码
  视频目标分割数据集:在视频目标分割(VOS)任务中,在视频的第一帧中提供一个或多个通用目标的实例分割,并且必须在所有后续帧中以像素精度进行分割。现有的VOS数据集仅包含很少的对象,这些对象也存在于大多数帧中。VOS任务的数据集包括DAVIS 2016,它专注于单对象VOS,以及DAVIS 2017 数据集,它扩展了多对象VOS的任务。并且YouTube-VOS数据集同样可用,比DAVIS大几个数量级。此外,Segtrackv2数据集,FBMS和YouTube对象数据集的带注释子集都可用于评估此任务。
  视频实例分割数据集:Cityscapes,BDD和ApolloScape为汽车场景提供视频数据。 然而,实例标注仅针对非相邻帧的一小部分提供,或者在ApolloScape的情况下,针对每个帧提供,但不随时间推移提供对象身份。 因此,它们不能用于像素级跟踪方法的端到端训练。
  方法:《Online video object detectionusing association LSTM》通过聚合每帧的位置和外观特征并使用LSTM跨时间组合来实现跟踪。《Tracking the Untrackable: Learning to track multiple cues with long-term dependencies》使用LSTM的组合将通过裁剪检测获得的外观特征与速度和交互信息组合。
  半自动注释:存在许多用于半自动实例分割的方法,例如从scribbles(《GrabCut: Inter-active foreground extraction using iterated graph cuts》)或clicks(《Deep interactive object selection》)生成分割掩码,这些方法需要用户输入每个要分割的对象,

数据集

  半自动标注程序:为了使标注工作易于管理,本文提出了一种半自动方法,通过分割掩码扩展边界框级别标注,使用卷积网络从边界框自动生成分割掩码,然后使用手动多边形标注进行校正步骤。为了将边界框转换为分割掩码,使用基于DeepLabv3+的完全卷积改进网络,该网络将边界框指定的输入图像作为输入,并添加了一个小的上下文区域,以及附加输入通道,将边界框编码为掩码。
  KITTI MOTS:本文在KITTI跟踪数据集的边界框级别注释上执行了上述标注过程。标注的样本如图2所示:
在这里插入图片描述
  为了便于训练和评估,将KITTI跟踪数据集的21个训练序列分别划分为训练和验证集,统计数据见表1:
在这里插入图片描述
  MOTSChallenge:进一步标注了MOTChallenge 2017训练数据集4的7个序列中的4个,并获得了MOTSChallenge数据集。MOTSChallenge专注于拥挤场景中的行人,并且由于许多遮挡情况而非常具有挑战性,因为像素方面的描述尤其有益。 标注的样本如图2所示,统计数据在表1中给出。

评估指标

  改进了CLEAR MOT指标来做评估,受《Panoptic segmentation》的启发,本文要求对象的ground truth掩码和MOTS方法产生的掩码都不重叠,即每个像素最多可分配给一个对象。
  CLEAR MOT指标的一个重要步骤是建立ground truth对象和跟踪器假设之间的对应关系。 在基于边界框的设置中,建立对应关系是通过二分匹配来执行,因为ground truth框可以重叠并且多个假设框可以很好地适应给定的ground truth框。在MOTS的情况下,由于要求每个像素在ground truth和假设中都是唯一的, 因此,对于给定的ground truth掩码,至多一个预测掩码可以具有大于0.5的交并比(IoU),可以简单地使用基于掩码的IoU定义为:
在这里插入图片描述
  IDswitches的集合IDS被定义为:
在这里插入图片描述
  另外定义了soft版本的true positives数量为:在这里插入图片描述
  提出多对象跟踪和分割准确度(MOTSA)作为基于框的MOTA度量的基于掩码IoU的版本,即:
在这里插入图片描述
  基于掩码的多目标跟踪和分割精度(MOTSP)为:
在这里插入图片描述
  soft多目标跟踪和分割精度(sMOTSA):
在这里插入图片描述

方法

  为了解决检测,跟踪和分割,即MOTS任务,与神经网络联合,建立在流行的Mask R-CNN 架构上,该架构通过掩码head扩展了Faster R-CNN检测器。提出TrackR-CNN,又通过一个关联头(association head)和两个3D卷积层来扩展Mask R-CNN,以便能够随时间关联检测并处理时间动态,如图3所示:
在这里插入图片描述
  整合时间上下文:为了利用输入视频的临时上下文,将3D卷积(其中第三个维度是时间)整合到以ResNet-101为骨干网的Mask R-CNN中。3D卷积应用于主干特征,以便增强主干特征得时序性。
  关联头:为了将检测随时间关联的数据,通过关联头扩展Mask R-CNN,该关联头是一个全连接层,其将区域提议作为输入并且预测每个proposal的关联向量。将两个关联向量v和w之间的距离 定义为它们的欧几里德距离,即:
在这里插入图片描述
  使用Hermans等人提出的batch hard triplet loss 来训练关联头适用于视频序列,即:
在这里插入图片描述
  掩码传播:定义掩码传播得分为:
在这里插入图片描述
  跟踪:对于每个类和每个帧,将检测置信度大于阈值的当前帧的检测与之前帧中使用关联向量距离公式(7)选择的检测联系在一起,使用匈牙利算法进行匹配,同时仅允许距离小于阈值的成对检测。 最后,所有未分配的高置信度检测都会启动新的轨迹。

实验

  表2显示了TrackR-CNN在KITTI上的结果
在这里插入图片描述
  其中TrackR-CNN(box orig)表示在KITTI的原始边界框注释上经过无掩码头部训练的一个版本。
  消融实验
  不同的Temporal Components效果比较如表3所示:
在这里插入图片描述
  不同的关联方式效果比较如表4所示:
在这里插入图片描述
  在MOT上的比较效果如表5所示:
在这里插入图片描述

总结

  想了解一下在目标跟踪中应用分割来提升效果,加上之前看了很多篇论文都引用了这篇文章,便决定阅读这篇文章,这篇文章里提到了我很多还没有了解的术语,花了很多时间,不过给我的收益甚微,这篇文章是基于Mask-RCNN,第一次将分割融入多目标跟踪领域的,之前对于分割方面只看过Siammask,不过那个不是靠Mask-RCNN,而是借鉴了SharpMask的思路,利用一个vector来编码一个RoW的mask,这使得每个prediction位置具有非常高的输出维度(63*63),通过depthwise的卷积后级联1x1卷积来升维来实现高效运行,提出Refine Module用来提升分割的精度。之前阅读过Mask-RCNN的源码,比Faster-RCNN更为繁琐,我一度认为将这放入跟踪中,会导致算法的运行缓慢,所以想去看看这篇文章所提方法Track-RCNN的时间效率,发现这篇文章实验和摘要都没有提FPS,只是用了他提出的精度之类的指标来展示效果,不过这篇论文的贡献点不止是方法,还提供了两个基于KITTI和MOTChallengeMOTS任务的新数据集,并基于此提出了相应的评价指标,目前可能用不上,不过还是会继续留意和分割有关的论文,因为确实对于遮挡下的数据关联我认为是有提升的。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值