三个创新点:
①一个密集型像素标记的跟踪数据集(同时用于视频跟踪与分割的基于KITTI和MOTChallenge的数据集,使用半自动注释过程为两个现有跟踪数据集创建密集的像素级注释)
②一种多目标跟踪的度量指标
③一种新的基线方法,该方法联合处理检测、跟踪和分割与单一卷积网络
文章中的文章贡献翻译为:
(1)基于流行的KITTI和MOTChallenge数据集,提供了两个具有时间一致性对象实例分段的新数据集,用于训练和评估处理MOTS任务的方法。
(2)提出了一种新的软多目标跟踪与分割精度(sMOTSA)测量方法,该方法可以同时评估新任务的各个方面。
(3)将TrackR-CNN作为一种基线方法,将其与已有的工作进行比较,并将其与检测、跟踪和分割相结合。
(4)验证了新数据集对像素级多目标跟踪器端到端训练的有效性。
构造数据集的目的:
用于训练和评估实例分割模型的数据集通常不提供关于视频数据的注释; 用于多对象跟踪的公共数据集只提供对象的边框。这些可能太粗糙,例如,当对象被部分遮挡,使得其边界框包含来自其他对象的信息多于来自自身的信息。如下图,而逐像素分割掩码则能够精确定位。
半自动标注:
其实就是通过训练好的模型检测目标