一、前言
近日,我们提出了链式跟踪算法Chained-Tracker(CTracker),业内首创基于两帧输入的链式跟踪框架,实现端到端联合检测跟踪,该算法在2020年2月份刷新MOT17榜单记录,相关论文(Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking)已被计算机视觉顶级会议ECCV2020接收(spotlight,top 5%),代码已开源。欢迎大家cite和star。
- 论文地址:https://arxiv.org/abs/2007.14557
- 开源代码:https://github.com/pjl1995/CTracker
- 视频简介:https://www.youtube.com/watch?v=UovwAgKys88
二、研究意义
多目标跟踪(MOT)技术是计算机视觉领域中一项重要的基础技术,其目的是对视频中所有的感兴趣目标同时跟踪,并得到完整的目标轨迹。MOT在视频分析、智慧城市、智能机器人、自动驾驶等领域都有着广泛的应用 。传统的多目标跟踪算法都是基于先检测后跟踪的框架,如图1所示,这种框架通常包含目标检测、特征提取、目标关联这3个模块,由于3个模块相互独立,导致整个跟踪流程耗时长,且无法进行全局优化。
为解决这一问题,我们提出链式跟踪算法CTracker,通过独创的两帧输入模式,完美地将3个独立模块融合至一个网络之中,通过单个网络即可实现端到端联合检测跟踪,大大提高了跟踪准确性,降低了跟踪耗时。链式跟踪算法与传统多目标跟踪算法对比示意图如图2所示,相比于传统多目标跟踪算法,链式跟踪算法简洁高效,将跟踪算法中最具挑战性的目标关联问题巧妙地转化为两帧检测框对(Box pair)回归问题。
三、算法创新
与其他的多目标跟踪算法相比,链式跟踪算法CTracker主要有两点创新:
(1)我们首次提出基于两帧输入的链式跟踪框架,实现端到端联合检测跟踪,将目标检测、特征提取、目标关联这3个模块融合至一个网络中进行全局优化,CTracker是第一个将跟踪算法中的目标关联问题转化为两帧检测框对回归问题的算法。
(2)我们设计了联合注意力模块(JAM,Joint Attention Module)来突出检测框对回归中的有效信息区域,进一步提高跟踪效果,包括目标分类分支中的目标注意力机制和身份验证分支中的身份注意力机制。
四、算法细节
两帧输入:传统MOT算法都是单图输入网络,而我们提出的CTracker算法同时输入相邻的两帧至网络中,CTracker的算法框架图如图3所示,两相邻帧称之为一个节点(Chain node),网络输出节点中的所有检测框对,每个检测框对包含同一个目标在前后帧中的两个检测框,通过这种方式,我们可同时得到目标在相邻两帧中的检测框,以及检测框的关联关系。
节点连接:如图3所示,对于两个相邻的节点,前节点的后帧与后节点的前帧是同一帧,在此共同帧中,前节点输出的检测框和后节点输出的检测框基本一致,因此可用简单的交并比算法进行匹配(传统MOT算法需用复杂的特征提取和目标关联算法),关联上的检测框赋予同一个ID,以此类推,从第一个节点连接到最后一个节点,即可得到完整的目标跟踪轨迹。
网络结构:CTracker的网络结构如图4所示,两相邻帧分别输入至backbone中得到特征,再将两帧特征组合输入至预测头网络中,预测头网络由目标分类分支、检测框对回归分支、身份验证分支组成,目标分类分支用于判断前帧中的检测框是目标还是背景,检测框对回归分支用于预测检测框对的坐标,身份验证分支用于验证回归出的检测框对是否代表同一目标。
联合注意力模块:为使得检测框对回归分支关注图像中的有效信息,我们提出了联合注意力模块JAM,将目标分类分支和身份验证分支的注意力图同时乘到组合特征中,再输入至检测框对回归分支。检测框分类分支的注意力图使得检测框对回归分支更专注于感兴趣前景区域,身份验证分支的注意力图使得检测框对回归分支更专注于相同目标检测框对的回归。
内存共享机制:为进一步降低检测跟踪的整体耗时,我们还设计了内存共享机制(MSM,Memory Sharing Mechanism),如图5所示,由于共同帧会输入至网络两次,为避免重复输入导致的额外耗时,我们将当前节点的后帧特征进行保存,并直接输入至下一个节点作为前帧特征,对于最后一个节点,直接将最后一帧的特征复制一遍作为后帧特征即可。
五、实验结果
CTracker与其他MOT算法在MOT16和MOT17测试集中的跟踪结果分别如表1和表2所示,与用private检测器的online方法对比,CTracker获得了最高的MOTA(跟踪效果的最主要评价指标),MOT16为67.6,MOT17为66.6。同时,CTracker也获得了接近最高的Hz(跟踪速度评价指标),在Tesla P40机器上,检测跟踪每帧耗时为148.1ms,其中跟踪部分每帧耗时仅需29.05ms,跟踪速度可达34.4fps。实验证明,CTracker是一种十分高效且快速的跟踪算法。
我们可视化展示了CTracker与POI算法、Tracktor算法的对比,如图6和图7所示,可以看出CTracker在跟踪的准确性上优于POI和Tracktor,详细视频对比见上文Youtube链接。
六、总结
我们提出了基于两帧输入的链式跟踪算法,并通过联合注意力模块有效提高了跟踪效果。更多细节和实验请参考我们的论文、代码、视频。