将GNN求解的最小流算法应用于多目标跟踪

曼城的天空是蓝色的

已于 2024-04-13 17:12:50 修改

阅读量757

点赞数 21

文章标签：目标跟踪人工智能计算机视觉

于 2024-04-13 16:12:40 首次发布

本文链接：https://blog.csdn.net/qq_73966123/article/details/137714316

版权

本文提出了一种新型的多目标跟踪(MOT)方法，通过将经典MOT网络流公式与深度学习结合，创建了一个可微分的框架。该方法利用MPN进行特征提取和数据关联，引入时间感知更新，显著提升了性能。研究者旨在将学习融入数据关联任务，而非仅限于特征提取，为MOT领域的未来发展提供了新思路。

摘要由CSDN通过智能技术生成

1、主要贡献

在这项工作中，利用经典的MOT网络流公式来定义一个基于消息传递网络(mpn)的完全可微框架。通过直接在图域上操作，可以在整个检测集上进行全局推理并预测最终解决方案。

在MOT的图方法中，一个节点表示一个对象检测，一条边表示两个节点之间的连接。活动边表示两个检测属于同一轨迹。解决MOT图划分任务，即寻找活动边或轨迹的集合，也可以分解为两个阶段。首先，为图中的每条边分配一个成本，编码属于同一轨迹的两个检测的可能性。然后，在图优化框架内使用这些成本来获得最优图分区。

以前关于基于图的MOT的工作大致分为两类:一类专注于图的制定，另一类专注于学习更好的成本。总的来说，这两方面的工作提出了一个难题:MOT方法应该专注于改进图优化框架还是特征提取?

通过将这两个任务结合到一个统一的基于学习的求解器中，该求解器可以:(i)学习MOT的特征，(ii)通过对整个图的推理来学习提供解决方案。利用经典的MOT网络流公式来定义。不再学习成对成本，然后在可用的求解器中使用这些成本，而是学习直接预测图的最终划分为轨迹。为此使用消息传递网络(MPN)直接在自然MOT域(即图域)进行学习。我们的MPN学习将深度特征组合成图中的高阶信息。尽管依赖于一个简单的图公式，但能够解释检测之间的全局相互作用。

（1）提出了一种基于消息传递网络的MOT求解器，可以利用问题的自然图结构进行特征学习和最终解预测。

（2）受经典MOT图公式的启发，提出了一种新颖的时间感知神经信息传递更新步骤。

2、作为一个图问题的跟踪

2.1、网络流公式

为了表示图分区，为图中的每条边引入一个二进制变量。在经典的最小代价流公式中，该标签当连接节点的边满足(i)属于同一轨迹，(ii)在一个轨迹内暂时连续则被定义为1，剩余边被定义为0

为了正式定义边标签，对于不同时间戳 (i,j)∈E 的每一对节点，定义一个二元变量y(i,j)为

当y(i,j) = 1时，一条边(i,j)被称为活动边。假设T中的轨迹是节点不相交的，即一个节点不能属于多个轨迹。因此，必须满足一组线性约束。对于每个节点i∈V:

这些不等式是流动守恒约束的简化版本。该假设强制每个节点通过活动边连接，在过去的帧中最多一个节点，在即将到来的帧中最多一个节点

2.2、从学习成本到预测解决方案

为了使用所描述的框架获得图分区，不同于使用的标准方法，该模型直接学习预测图中的哪些边是活动的，即预测二进制变量y的最终值。为此，将任务视为一个关于边的分类问题，其中的标签是二进制变量y。总的来说，利用提出的经典网络流公式将MOT问题视为一个完全可学习的任务

3、学习利用消息传递网络进行跟踪

主要贡献是一个可微分框架，用于训练多目标跟踪器作为边分类器，基于在前一节中描述的图公式。给定一组输入检测，模型被训练来预测图中每条边的二进制流变量y的值。方法是基于一种新颖的消息传递网络(MPN)，能够捕获MOT问题的图结构。在提出的MPN框架中，外观和几何线索在整个检测集合中传播，允许模型对整个图进行全局推理

主要由4个阶段组成：

（1）图的构建：接收一组帧和检测作为输入（如图a），如图b

（2）特征编码：用 CNN 初始化图中的节点嵌入，用 MLP 编码几何信息初始化边嵌入，如图b。应用于边界框图像的节点外观特征嵌入利用CNN 初始化。对于每条边，即对于不同帧中的每对检测，计算一个向量，该向量的特征编码了它们的边界框的相对大小、位置和时间距离。然后将其输入多层感知器(MLP)，最后返回几何嵌入

（3）神经信息传递：这些嵌入所包含的信息通过神经信息传递在图上传播固定次数的迭代，如图c。直观地说，对于每一轮消息传递，节点与其连接边共享外观信息，而连接边与其事件节点共享几何信息。这就产生了包含高阶信息的节点和边的更新嵌入，这些信息取决于整个图的结构

一旦这个过程结束，由神经信息传递产生的嵌入被用来将边分类为活动(绿色)和非活动(红色)。在训练期间，计算预测的交叉熵损失w.r.t、GT标签和反向传播梯度通过整个过程，如图d

（4）训练：使用最终的边嵌入对活动/非活动边进行二值分类，并使用交叉熵损失训练整个模型。在测试时，使用每个边的模型预测作为目标流变量的连续近似值(在0到1之间)。在推理时，遵循一个简单的四舍五入方案来二值化分类分数并获得最终的轨迹，如图e。

3.1、信息传递网络

提供一个MPNs，目标是学习一个函数来传播节点和边特征向量中包含的信息，传播过程组织在边和节点的嵌入更新中，这被称为消息传递步骤。每个传递步骤的消息依次分为两次更新：一次是从节点到边 (v→e)，一次是从边到节点(e→v)。按固定次数依次执行更新，更新的一般形式如下：

其中 $\mathcal{N}_{e}$ 和 $\mathcal{N}_{v}$ 表示可学习的函数，经过 L 次迭代后，每个节点包含图中距离为1的所有其他节点的信息。因此， L 起着类似于cnn的接受区域的作用，允许嵌入捕获上下文信息。

3.2、时效性信息传递

以前的消息传递框架设计用于任意图。然而，大多数图都有一个打算利用的非常具体的结构。该模型的目标是在此网络中编码一个 MOT 式的感应偏差，特别是在节点更新步骤中。

回顾节点更新公式，允许将每个节点与其相邻节点进行比较，并聚合所有节点的信息，以便使用进一步的上下文更新其嵌入。再回顾流动守恒约束的结构，意味着每个节点最多可以连接到未来帧中的一个节点和过去帧中的另一个节点。可以说，一次聚合所有相邻的嵌入使得更新后的节点嵌入很难捕捉到这些约束是否被违反

将 MOT 图的时间结构清楚编码到 MPN 公式中可以为学习任务提供有用前提。为了实现这一目标，我们将从边更新到节点(e→v)的公式修改为时间感知更新规则，方法是将聚合分解为两部分：一部分是过去的节点，另一部分是未来的节点。形式上，让我们分别用 $N_{i}^{fut}$ 和 $N_{i}^{past}$ 表示 i 在未来帧和过去帧中的相邻节点。我们还定义两个不同的 MLPs ，即 $N_{v}^{fut}$ 和 $N_{v}^{past}$ 。对于通过步骤 $l$ 的每个消息，对于每个节点 i∈v，我们首先计算其所有相邻 j∈Ni 的过去和未来的边-节点嵌入，如图a展示了执行边更新后的起点，并计算中间节点更新嵌入:

之后分别汇总这些嵌入，这取决于它们相对于i是在未来还是过去的位置：

这些操作分别产生过去和未来的嵌入。通过连接它们并将结果提供给最后一个 MLP (记为 $N_v$ )来计算最终更新的节点嵌入:

时间感知更新结构如图c显示了所提出的更新，其中来自过去和未来帧的嵌入分别聚合，然后连接并馈送到 MLP 以获得新的节点嵌入，这种简单的体系结构设计相对于 MPNs 的普通节点更新有了显著的性能改进，如图b显示了 Vanilla MPNs 中的标准节点更新，其中所有相邻的嵌入都是联合聚合的。

3.3、特征编码

该 MPN 作为输入的初始嵌入是由其他可反向传播网络产生的

外观嵌入：依靠 CNN 来学习直接从 RGB 数据中提取特征嵌入。对于每个检测及其对应的图像补丁，通过计算得到对应的节点嵌入

几何嵌入：寻求获得一个变量对不同帧中的每一对检测、相对位置大小以及时间的距离进行编码。对于时间戳为 ti != tj 的每对检测 oi 和 oj，考虑由左上角图像坐标、高度和宽度参数化的边界框坐标，计算它们的相对距离和大小为：

然后将基于坐标的特征向量与时间差 tj - ti 和相对外观连接起来，并将其馈送到神经网络以获得初始边嵌入

3.4、训练和推理

在推理过程中，将在最后一个消息传递步骤中从模型中获得的输出值集解释为 MOT 问题的解，即指标变量y的最终值。

因为这些预测输出值在0到1之间。获得0或1决策的一种简单方法是通过阈值将输出二值化。然而，这一过程通常不能保证流动守恒约束保持不变。在实践中，由于所提出的时间感知更新步骤，当阈值为0.5时，方法将平均满足98%以上的约束。在此之后，一个简单的贪心四舍五入方案足以获得一个可行的二进制输出。精确的最优舍入解也可以用一个简单的线性程序有效地得到

4、结论

该文演示了如何利用 MOT 的网络流公式来将跟踪问题视为一个学习任务。提出了一个完全可微的模型，其中特征提取和数据关联可以共同学习。算法的核心是一个消息传递网络，具有新颖的时间感知更新步骤，可以捕获问题的图结构。在实验中已经证明了该方法相对于以前的技术水平有明显的性能改进。希望方法为未来的工作打开大门，使其不再局限于特征提取，而是专注于将学习集成到整体数据关联任务中