1、主要贡献
目标检测和数据关联是多目标跟踪(MOT)系统的关键组成部分。尽管这两个组件是相互依赖的,但以前的工作通常是分别设计检测和数据关联模块,并根据不同的目标进行训练。因此无法反向传播梯度并优化整个MOT系统,使用这种单独优化过程,不能在整个MOT系统中反向传播误差,也就是说,每个模块只朝着自己的局部最优进行优化,而不是朝着MOT的目标进行优化。因此,在之前的工作中使用的这种单独的优化过程通常会产生次优性能
为了解决联合MOT问题,尽管前人已经提出了一些方案,但单个对象/轨道/管道提取的特征彼此独立,并且忽略了对象-对象关系。但这种相互作用对对象检测和数据关联都是有用的
为了在联合MOT框架下同时优化了检测和数据关联模块,提出了一种新的基于图神经网络(GNNs)的联合MOT方法实例。关键思想是GNN可以在空间和时间域中对对象检测和数据关联的对象之间的关系进行建模,这对于学习用于检测和数据关联的判别特征至关重要。
通过使用图神经网络(GNN)来挖掘对象-对象关系。然后将得到的考虑对象关系的特征用于检测和数据关联任务。通过使用GNN,每个对象提取的特征不再是孤立的,而是可以通过其相关对象在空间和时间域中的特征进行调整。
这是第一个在联合MOT框架中通过GNN建模对象关系的工作,克服了先前工作的局限性,即1)可以执行联合MOT而忽略对象关系,2)可以建模关联中的对象关系,但不能解决联合MOT并使用对象关系来提高检测。
2、关于GNN的工作
不同于前人只使用GNN通过对象关系建模来更新节点特征,并显示出改进的MOT性能,这些只关注使用GNN来改善数据关联的方法,该工作使用GNN进行联合检测和关联,其中检测分支也受益于GNN关系建模
3、建立GSDT模型
3.1、特征提取和目标检测
3.1.1、特征提取
给定两帧输入图像 和
,首先使用共享的DLA-34主干(运用了多层级融合结构的深度残差网络ResNet34)从图像中提取两帧的特征:
,
,其中
为下采样比,
为图像的宽高,
为通道数,
如图2 (a)所示,其中为下采样比,W /H为图像的宽度和高度,C为通道数。在接下来的关系建模、目标检测和数据关联模块中,将使用到这两个图像特征:
,
。同样,对于第
帧的图像特征,我们将在gnn的第
层更新它,得到第
帧的图像特征:
为了获得 中每个轨道的特征,使用 RoIAlign (Mask-RCNN论文里提出的一种区域特征聚集方式)从给定轨道框的图像特征
中裁剪特征(即
中的红色框)。为了获得潜在检测的特征,我们使用了
中每个像素的特征,为了构建具有可管理边缘数量的图,只有当潜在检测到轨道的特征之间的边缘的空间距离在一个窗口内(即
中的灰色框),才会被定义。
3.3.2、目标检测
对于目标检测,只执行检测的帧 ,输入
给三个模块(位置,大小,精确),生成用于获得检测的
(物体中心坐标的粗略估计) ,
(物体宽度和高度的估计) 和
(将粗略的坐标进行精确的提炼) ,这三个模块可以在任何GNN层上工作
3.3.3、训练
为了训练三个模块并在整个网络中反向传播梯度,需要为每个映射构造 GT 并应用损失函数。对于GT位置图 ,使用高斯热图,其中峰值占据 GT 对象的位置
在为三个地图构建了 GT 之后,我们将焦点损失用于位置地图 ,L1损失用于大小地图
和精确地图
,再加权求和得到总损失
3.2、数据关联
如图3.3.2
为了将检测与轨道匹配,添加了关联模块,以学习每个潜在检测的身份关联,即 中的每个像素。这些身份关联用于计算测试过程中每对轨迹和潜在检测之间的相似性,当在前一帧中检测到轨迹的身份嵌入时进行缓存。具体来说,给定
作为输入,关联模块输出一个关联地图
,其中
表示关联维数,
中的每个像素都有一个以该像素为中心的潜在检测的映射。
为了优化关联模块,我们进一步使用关联地图的每个像素上的映射作为输入,并预测其单位向量 ,其中的第i项表示该像素关联对象标识i的概率。此外,将需要GT单位向量
进行训练,它是一个长度为M (M为目标数据集中对象标识的个数)的单热向量,在GT单位向量
中,只有GT单位索引用1填充,而其他所有索引都是0。只在存在GT对象的像素处使用交叉熵损失来监督我们的关联地图
3.3、GNN应用于关系建模
由于检测和数据关联忽略了轨道与检测之间的时空关系,使用gnn进一步利用这种关系信息,获得更好的联合MOT特征。
3.3.1、构建图
在构造一个图 ,其中节点
是检测和轨迹的特征。
对于轨迹特征,通过使用 RoIAlign 算法从图像特征 中裁剪轨迹特征。
对于检测特征,因为在 中没有检测到对象,所以没有它们的位置来从
中裁剪特征,很难获得检测特征。但由于
包含了足够的检测信息,所以选择在
的每个像素上使用特征来表示潜在的检测,从而得到
的检测节点
对于边的集合,一个简单的解决方案是在每对节点之间定义一条边,从而得到一个全连通图,然而,这会耗费很大的计算成本,当轨道和潜在检测的数量太大时是不切实际的。因此在MOT中利用了领域知识:
(a)数据关联只发生在帧之间(而不是在同一帧中),因此只定义轨迹节点与检测节点之间的边
(b)同一物体在不同帧间的位移往往很小,对于每个轨道节点,只将其连接到附近位置的检测节点,即以 轨道位置为中心的s × s空间窗口内的检测节点,其中,
上的灰框将具有带轨道的边缘的像素(检测节点)包围起来(见3.1.1)
3.3.2、节点特征聚合
GSDT的关键思想是使用GNN来建模对象-对象关系,并改进检测和数据关联的特征学习。为此,需要通过聚合与边相连的邻域节点的特征来迭代更新节点特征,这样信息就可以在图中传播,节点之间就可以进行交互
不同的GNN具有不同的节点聚合规则,在消融研究中尝试了常用的五种GNN,并比较它们的性能。最终使用GraphConv,它使用该规则更新节点特征:
表示节点
在GNN第
层的特征,
定义节点
的邻域,
,
为线性层。对于没有任何轨道的边缘的检测节点,方程中的第二项消失,这些潜在的检测节点仅用于发现帧t中的新对象(帧t-1中没有相应的轨道)
3.3.3、时空建模
在使用多个层的情况下,信息可以来回传播,从而支持时空对象关系建模。例如,在第一层中,将检测节点 的特征聚合到一个轨迹节点
上。在第二层中,将轨迹节点
的特征传播到另一个检测节点
上,即将部分节点特征
传播到检测节点
上,从而实现同一帧的空间关系建模。在最好的模型中,使用了三层GNN
3.4、基于GNN的联合检测和数据关联
如3.3.2和3.2,可以通过一起训练两个模块来解决联合检测和数据关联问题,但如果它们只使用来自 ,
的特征,则没有利用对象关系。因此在构建的图中,使用3层GNN通过节点特征聚合来更新轨道和潜在检测的特征,对每一层GNN应用检测和关联模块,得到最终的检测和匹配。因此网络的整体损失是gnn所有层的检测和数据关联损失的总和
4、结论
提出了一种同时优化目标检测和数据关联模块的联合MOT方法实例。此外,为了建模时空对象关系,使用GNN学习更多有利于检测和数据关联的判别特征。通过大量的实验证明了GNN在联合MOT框架下的有效性,并在MOT挑战上取得了最先进的性能。