Deep Affinity Network for Multiple Object Tracking
资源下载
多对象跟踪的深度亲和网络(偷个懒,只讲DAN)
3 PROPOSED APPROACH
首先引入简明描述的符号和约定,Notations:
3.1 Object Detection and Localization
目标检测阶段期望一个视频帧作为输入,并输出该帧中的目标对象的一组边界框。由于我们的主要贡献是在目标跟踪而不是检测方面,所以我们参考的是探测器的原始工作
3.2 Deep Affinity Network (DAN)
Fig.1,我们使用深度亲和网络(DAN)对物体在视频帧中的外观进行了建模,并计算了它们的跨帧亲和度。
将所提出的网络作为两个组件提出,即
- (a)特征提取器
- (b)亲和估计器。
然而,整个提议的网络是端到端可训练的。
3.2.1 Data Preparation
对可用的数据执行以下预处理步骤:
- Photometric distortions
- Frame expansion
- Cropping
Fig.2,说明了我们构建数据关联矩阵的方法
创建一个考虑虚拟对象的中间矩阵(带有零的行和列)来实现每帧对象数=5。
增加额外的列和行,以便在两帧之间包括Un-Identified 目标(分别离开和输入的对象)。
Table 1,总结了可用作我们网络输入的实体。
3.2.2 Feature Extractor
特征提取是通过将视频帧对和对象中心通过两个卷积层流来进行的,这些流在我们的实现中共享了模型参数,而它们的体系结构是受到VGG16网络的启发,将VGG的全连接和软层转换为卷积层后,使用VGG架构
Table 3,图1中特征降维层详图:3层选自VGG网络
3.2.3 Affinity Estimator
Table 2,表2的下半部分
DAN的这个组件的目标是使用它们提取的特征来编码对象之间的亲和关系
3.3 DAN Deployment
Fig.3,每一帧只通过对象检测器和特征提取器一次,但特征被多次用于计算与多个其他帧的亲和度。
3.4 Deep Track Association
为了将当前帧中的对象与之前的多个帧关联起来,我们存储了这些帧的特征矩阵及其时间戳。
Fig.3,如图3所示,计算出的亲和矩阵通过回顾前面的帧来更新轨迹集。
4 EXPERIMENTS
在本节中,我们根据三个著名的多目标跟踪挑战来评估所提出的方法,即多对象跟踪17(MOT17)、多对象跟踪15(MOT15)和UA-DETRAC
4.2 Multiple Object Tracking 17 (MOT17)
7个不同的室内和室外公共场所场景,以行人作为感兴趣的对象
4.2.2 Evaluation Metrics
评估指标如下:
4.2.3 Results
我们的结果明显优于现有的MOTA和MOTAL的在线方法
Fig.4,我们的跟踪器能够很容易地从遮挡中恢复
5 DISCUSSION
DAN是第一个同时模拟对象外观和计算帧间对象亲和度的深度网络