【论文速递】ECCV2022 : 实现目标跟踪的大一统

N0thing2say

已于 2023-02-01 14:39:38 修改

阅读量908

点赞数 1

文章标签：目标跟踪 transformer 深度学习

于 2023-02-01 14:25:40 首次发布

本文链接：https://blog.csdn.net/Never_moresf/article/details/128831880

版权

Unicorn是一个统一的模型，能同时处理单目标跟踪(SOT)、多目标跟踪(MOT)、视频目标分割(VOS)和多目标跟踪分割(MOTS)。通过目标先验和像素级对应，它克服了不同跟踪任务间的差异，无需特定任务的过度优化，在多个基准测试中表现优秀，是向通用视觉模型迈进的重要步骤。

摘要由CSDN通过智能技术生成

【论文速递】ECCV2022 : 实现目标跟踪的大一统

【论文原文】：Towards Grand Unification of Object Tracking

论文地址：https://arxiv.org/abs/2207.07078
代码：https://github.com/MasterBin-IIAU/Unicorn

博主关键词： 多目标跟踪，单目标跟踪，视频目标分割，多目标分割

推荐相关论文：

【论文速递】CVPR2022 - 全局跟踪Transformers
-https://blog.csdn.net/Never_moresf/article/details/128704693
【论文速递】CVPR2022 : 用于对象跟踪的统一transformer跟踪器
-https://blog.csdn.net/Never_moresf/article/details/128790843

摘要：

我们提出了一种统一的方法，称为 Unicorn，它可以使用相同的模型参数同时解决四个跟踪问题（SOT、MOT、VOS、MOTS）。由于目标跟踪问题本身的碎片定义，大多数现有的跟踪器被开发用于解决单个或部分任务，并对特定任务的特征进行过度优化。相比之下， Unicorn提供了一个统一的解决方案，在所有跟踪任务中采用相同的输入、主干、嵌入和头部。这是第一次完成了跟踪网络架构和学习范式的巨大统一。Unicorn在8个跟踪数据集(包括LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20和BDD100K MOTS)中表现与任务特定的模型相同或更好。我们相信，独角兽将成为迈向一般视觉模型的坚实一步。代码可在https://github.com/MasterBin-IIAU/Unicorn上找到。

关键词 多目标跟踪，单目标跟踪，视频目标分割，多目标分割

简介：

与设计用于解决一个特定任务的弱人工智能相比，人工一般智能（AGI）有望理解或学习人类能够学习的任何智力任务。尽管在这一雄心勃勃的目标和今天的知识算法之间仍然有很大的差距，但[20,51,81,21]最近的一些工作已经开始探索构建通用视觉模型来同时解决多个视觉任务的可能性。

目标跟踪是计算机视觉中的基本任务之一，它旨在在帧之间建立像素级或实例级的对应关系，并以边界框或mask的形式输出轨迹。多年来，根据不同的应用场景，目标跟踪问题主要分为四个独立的子任务：单目标跟踪（SOT）[18,42]、多目标跟踪（MOT）[40,80]、视频目标分割（VOS）[46]、以及多目标跟踪和分割（MOTS）[61,80]。因此，大多数跟踪方法都是只针对子任务中的一个或一部分开发的。尽管对于特定的应用程序很方便，但这种分散的情况也带来了以下缺点： (1)跟踪器可能对特定子任务的特征过于专门化，缺乏泛化能力。(2)独立的模型设计会导致参数冗余。例如，最近的基于深度学习的跟踪器通常采用类似的主干架构，但独立的设计理念阻碍了参数的潜在重用。很自然会问一个问题：所有的主流跟踪任务都可以用一个统一的模型来解决吗？

在这里插入图片描述

Fig. 1. Comparison between previous solutions and Unicorn.

虽然一些工作[64,36,62,70,39]试图通过在现有的box-level跟踪系统中添加掩码分支来统一SOT&VOS或MOT&MOT，但在SOT和MOT的统一方面进展甚微。阻碍这一进程的主要有三个障碍。(1)被跟踪目标的特征各不相同。MOT通常会跟踪数十个甚至数百个特定类别的实例。相比之下，SOT需要跟踪参考帧中给定的一个目标，无论它属于哪个类。(2) SOT和MOT需要不同类型的响应。SOT需要从背景中区分出目标。然而，MOT需要将当前检测到的物体与以前的轨迹相匹配。(3)大多数SOT方法[3,29,15,5,9,77]只以一个小的搜索区域作为输入，以节省计算和过滤潜在的干扰物。然而，MOT算法[2,74,8,67,85,90,39]通常以高分辨率的全图像作为输入，尽可能完整地检测实例。

为了克服这些挑战，我们提出了两个核心设计：目标先验和像素级对应。具体来说，(1)目标先验是检测头的额外输入，作为四个任务之间的切换。对于SOT&VOS，目标先验是传播的参考目标图，使头部能够聚焦于被跟踪的目标。对于MOT和MOTS，通过将目标先验设置为零，检测头会平滑地退化为通常的类特异性检测头。(2)像素级的对应关系是指来自参考帧和当前帧的所有点对之间的相似性。SOT响应和MOT响应都是像素级响应的子集。(3)借助信息目标先验和精确的像素级对应，SOT不需要搜索区域的设计，使得SOT和MOT的都使用全图像作为统一输入。

在这里插入图片描述

Fig. 2. Unicorn consists of three main components: (1) Unified inputs and backbone (2) Unified embedding (3) Unified head.

为了统一目标跟踪，我们提出了Unicorn，一个单一的网络架构来解决四个跟踪任务。它以参考帧和当前帧作为输入，并通过一个权重共享的骨干产生它们的视觉特征。然后利用特征交互模块在两帧之间的建立像素级对应关系。基于这些对应关系，通过将参考目标传播到当前帧来生成目标先验。最后，将目标先验和视觉特征融合，发送到检测头，得到所有任务的跟踪目标。

通过统一的网络架构，Unicorn可以从各种来源的跟踪数据中学习，并使用相同的模型参数处理四个跟踪任务。大量的实验表明，Unicorn在4个跟踪任务的8个具有挑战性的基准上的表现与特定任务相同或更好。

我们总结了我们的工作有以下贡献：
–Unicorn首次完成了四种跟踪任务的网络架构和学习范式的巨大统一。
–Unicorn通过目标先验和像素级对应，弥合了四种跟踪任务的方法之间的差距。
–Unicorn在具有相同的模型参数的8个具有挑战性的跟踪基准测试上提出了新的最先进的性能。这一成就将成为迈向一般视觉模型的坚实一步。

【社区访问】

【论文速递 | 精选】

阅读原文访问社区

https://bbs.csdn.net/forums/paper

N0thing2say

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫