MOT with a hierachical single branch network

最新推荐文章于 2023-07-07 17:40:23 发布

__萌新

最新推荐文章于 2023-07-07 17:40:23 发布

阅读量191

点赞数 1

分类专栏：多目标跟踪文章标签：深度学习

本文链接：https://blog.csdn.net/qq_33949900/article/details/112545994

版权

多目标跟踪专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MOT论文阅读-单分支分层网络

3、网络结构
- 3.1、分层的单个分支网络
- 3.2、改进的分层在线实例匹配损失
4、实验部分
- 4.1、实验设置
- 4.2、实验结果与分析

按照原论文中章节序号来制定本文的序号。

3、网络结构

网络结构
在这项工作中，我们提出了一个在线多目标跟踪框架，该框架具有一个分层的单分支网络，如图1所示。将视频帧输入分级单支路网络，可以得到所有目标检测结果和相应的重识别特征。然后，我们使用DeepSort框架获得目标轨迹。在本节中，我们首先在3.1节中介绍一种新的分层单支路网络的概述。然后，我们在3.2节描述了改进的分层在线实例匹配(iHOIM)损失函数，它明确地阐明了检测和重识别之间的关系。

3.1、分层的单个分支网络

如图2所示,该层次单一分支网络是基于Faster R-CNN与ResNet-50骨干组成的stem网络共享功能的学习,一个区域建议网络(RPN)生成对象的提议，对象位置的运动模型预测，和一个头部网络(R-CNN)用来做盒子回归。在网络的末端，在头部网络的顶部额外增加一个l2归一化的线性层来提取对象重id特征。
在训练过程中，我们将运动模型从分级单支路网络中移除。按照[15]中的配置，我们使用随机梯度下降(SGD)结合RPN损失(包括提案分类和回归损失)、RCNN盒回归损失和提议的iHOIM损失共同训练整个网络。
在推理过程中，我们首先将输入视频帧I输入到分级单支路网络中，一系列感兴趣区域Rt可以在RPN层获得，同时，应用运动模型预测物体位置Mt在现有轨迹Tt的基础上。其次，将Rt和Mt盒融合为对象区域建议Pt，它将被输入到头部网络，在网络的最后两层最后得到对应于输入视频帧Ft的目标检测结果Bt和reID特征。

3.2、改进的分层在线实例匹配损失

目前，单级网络通常都是基于提取的共享特征图，使用两个分离的分支来完成检测和ReID。这两种分支都没有研究两个子任务之间的竞争，这必然会影响跟踪性能。为了解决这一问题，Chen等人提出了HOIM loss，即将人检测和再识别的层次结构明确地整合到OIM [12] loss中。HOIM loss构建了三个不同的队列来存储有标记的人、无标记的人和背景嵌入。然而，它并不适用于MOT场景。
为了在MOT数据集上进行更有效的训练，我们提出了一种改进的分层在线实例匹配丢失算法。假设训练数据中有N个不同的恒等式，iHOIM构造了一个大小为Nxd的查找表来记忆标记的person embeddings和一个大小为Bxd的圆形queen来存储多个背景embeddings。查表和循环队列共同构成投影矩阵w2r (N+B) d。给定嵌入x 2rd的建议，我们可以通过计算一个线性投影得到x与存储的嵌入项之间的余弦距离，如下所示：
公式1
那么x属于任意个人或背景的概率就可以通过softmax函数计算出来，
公式2
式中，τ为控制概率分布柔软度的温度因子。然后，根据总概率的规律，建立描述目标检测和重识别之间相互关系的层次结构，如图3所示。（这个图我还没看懂）

那么，x代表背景的概率(记为φ)也可以用同样的方式表示，
公式4
结合这两种概率，我们将目标检测损失表述为二进制交叉熵损失，其中y是一个二进制标号，如果x是人，y等于1，否则等于0。
对于第二层，我们遵循文献[12]来制定用于Re-ID的OIM损失。给定一个嵌入x, x是一个人并且属于身份k(表示为id = k)的概率可以通过softmax函数产生：

然后，实例重识别的目标是最大化期望的对数似然：
在这里插入图片描述
最后，我们提出的iHOIM损失是两级损失的线性组合：

其中λ为LOIM的损失量。基于检测置信度p(λ)动态加权两个任务的重要性。该模型在检测得分较高时侧重于识别被检测的人，或侧重于检测任务。通过移除HOIM[15]丢失中未标记人的循环队列，我们的iHOIM丢失更加简单，占用的内存也更少。它不仅能够识别不同的人，还能从杂乱的背景中对人进行分类。因此，该方法具有更强的鲁棒性和更高的检测精度。
在训练期间，查找表以一个η的动量更新：
在这里插入图片描述
而圆形的模组则用新的来代替旧的嵌入物，以保持固定的尺寸。

4、实验部分

4.1、实验设置

本论文实验是在mot16和mot20上做的，用motchallenge基准上评价指标来评估方法，在推理和跟踪过程中，我们引入了DeepSORT[2]框架，基于提取的检测结果和相应的嵌入来跟踪多个目标。我们选择卡尔曼滤波作为运动模型，根据现有的轨迹预测目标位置，这些轨迹将被输入到层次网络中，并作为区域建议用于后续的目标检测。

4.2、实验结果与分析

测试集评价：表1中的实验结果表明，与其他先进的两阶段方法相比，我们提出的方法获得了最先进的性能。即使在非常拥挤的场景中，如mot20数据集，我们的方法仍然表现出色。结果表明，所提出的层次结构有效地统一了目标检测和重新识别两个任务。我们在mot16 / mot20上分别以1.6%/2.6%的MOTA击败了之前的最佳跟踪器，这归功于我们的分级网络的有效性。此外，我们的单阶段MOT框架具有较低的计算复杂度，比所列的两阶段MOT方法快5倍左右。IDSw和FP较高的原因是我们的模型只注重提高检测和再识别的质量，而对跟踪的优化关注较少，这可能是该工作未来的研究方向。

__萌新

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MOT with a hierachical single branch network

简简单单的论文阅读3、网络结构3.1、分层的单个分支网络3.2、改进的分层在线实例匹配损失3、网络结构在这项工作中，我们提出了一个在线多目标跟踪框架，该框架具有一个分层的单分支网络，如图1所示。将视频帧输入分级单支路网络，可以得到所有目标检测结果和相应的重识别特征。然后，我们使用DeepSort框架获得目标轨迹。在本节中，我们首先在3.1节中介绍一种新的分层单支路网络的概述。然后，我们在3.2节描述了改进的分层在线实例匹配(iHOIM)损失函数，它明确地阐明了检测和重识别之间的关系。3.1、分层的单
复制链接

扫一扫