MOTDT论文阅读
众所周知,如何更好地将已有的追踪序列和当前检测相关联是tracking-by-detection追踪框架中最主要的问题,在该论文中提出了一个通过评分函数对目标检测结果与当前追踪结果进行筛选,进而使用级联目标关联完成多目标追踪的方案,此外,作者中还设计了一个re-id模型用于提取目标的表观信息。
以下将针对论文中提出的整体算法框架以及评分函数设计、级联追踪、re-id模型设计进行解释。
论文链接:https://arxiv.org/abs/1809.04427
项目链接:https://github.com/longcw/MOTDT
1. 算法整体框架说明
1.1 数据关联算法: 级联算法
- 整体的关联算法如上图所示。
- 针对一个视频序列的每一帧图像,做如下操作:
- 首先针对该帧图像使用R-FCN分类,得到score map
- 然后得到该帧所对应的检测候选目标和追踪候选目标
- 检测候选目标是通过检测网络得出
- 追踪候选目标是通过当前追踪序列中预测的位置
- 接下来针对所有候选目标进行筛选
- 将检测和追踪的候选目标作为一个集合,使用评分函数得到每个元素对应的分数
- 使用NMS和阈值筛选出合理的候选目标
- 使用ReID模型针对该帧的检测目标进行特征提取
- 级联的关联算法,将检测与追踪序列进行关联
- 第一步使用当前追踪序列的特征和检测候选目标特征进行关联
- 第二步将还没有关联上的追踪序列和没有关联上的检测候选目标使用IoU进行关联
- 将仍然没有关联上检测候选目标初始化为新的追踪序列
- 更新追踪序列的特征向量集合
2. 各部分描述
2.1 Real-Time Object Classification
-
此部分用了一个改进的R-FCN网络针对所有的ROI得到score map
-
需要注意的是,该部分网络是针对所有的candidate进行分类,得到score,而不是进行bbox的回归
-
为了不损失空间信息,网络针对所有的目标都会生成k平方的score map
- For example, if k = 3, we have 9 score maps response to top-left, top-center, top-right, …, bottom-right of the object, respectively.
- 最终的ROI分数为
-
R-FCN网络的架构图为
- 注:由于没有深入了解R-FCN网络的理论知识,此处不进行详细说明,只需要了解该网络在此处只是为了进行分类,得到score map即可
2.2 Tracklet Confidence and Scoring Function
-
对追踪的预测candidate的置信度计算为:
-
其中,Ldet为该追踪序列与检测目标相关联的次数,Ltrk为该追踪序列在上一层与检测相关联之后update的次数
-
追踪的评分函数如下:
2.3 Appearance Representation with ReID Features
-
该论文中的采用了基于神经网络的ReID模型,是直接使用的已有的模型,参考论文为:
Liming Zhao, Xi Li, Jingdong Wang, and Yueting Zhuang,“Deeply-learned part-aligned representations for person reidentification,” in ICCV, 2017.
-
此处不做赘述,只需了解ReID模型是为了提取candidate中的表观特征信息,以作为目标关联的依据之一
2.4 级联目标关联算法
级联算法部分直接见算法整体框架说明,此处不作赘述
3. 算法的可以借鉴之处
- 相对于deep SORT的最先匹配最近的追踪序列,MOTDT引入了评分机制,匹配时间越久的追踪序列置信度越高
- 依据追踪候选目标与检测候选目标的分数做一个NMS,换句话说,就是用预测弥补了漏检