TNT

在这里插入图片描述
论文链接:Exploit the Connectivity: Multi-Object Tracking with TrackletNet

1. 概述

在这里插入图片描述
如上图所示,TNT(TrackletNet Tracker)是一种性能优秀的跟踪器,其关键指标(MOTA、IDF1)都表现良好,且有不俗的抗FN能力。

关键技术

  • Tracklet-based Graph Model: 将 tracklet 作为顶点、将两 tracklets 间相似度(的减函数)作为边权的无向图,可以通过顶点聚类算法完成 “tracklet-to-trajectory” 过程;
  • Multi-scale TrackletNet: 输入两 tracklets,输出其相似度,最大特点是用时域1D滤波器充分利用了 tracklets 的时态信息(temporal info);
  • EG-IOU: 在做帧间detections关联时,使用 Epipolar Geometry(对极几何)对下一帧检测框做最佳预测,从而优化 IOU 算法;

关键能力

  • Graph Model 的设计可以充分使用时域信息、降低计算复杂度等;
  • TrackletNet 作为一个统一(unified)的系统,将外观信息(appearance)和时态信息(temporal)合理地结合了起来;注意,传统的时态信息一般是 bbox 的位置、大小、运动等信息,而 TrackletNet 通过时域卷积池化等,挖掘了外观信息中蕴含的时态信息(即外观信息的时域连续性)
  • EG 技术可以有效对抗相机运动带来的错误关联问题;

2. 总览

在这里插入图片描述
我用一张图大致总结了 TNT 整体的框架结构,见上图。

  • 核心部分(粉色框):算法的核心是 Graph Model 的构建和聚类;Graph 的顶点来自 tracklets,边权代表两 tracklets 之间的关联损失(越小越相似);完成 Graph 的构建后,可以通过最小化全局损失图划分算法,对 Graph 中的顶点进行聚类,每一个 cluster 即对应一个 target,将每个 cluster 中的 tracklet 进行连接(用线性插值不全缺少的detections)即得到所有的 object trajectories
  • 关键部分(橘色框)EG-IOUTrackletNet 是本文中两个关键技术;EG用于优化 tracklets 生成过程中的 IOU 指标;TrackletNet 用于计算两 tracklets 之间的相似度。
  • 训练部分(灰色框):训练时,detections 和 tracklets 需要用到训练数据,作者对其进行了数据增强;对 detections 进行了尺寸位置随机化;抽样 tracklets 时进行了随机划分和抽取,并保证正负样本均衡。

3. 详述

本部分更详细地介绍文中几种关键技术。
在这里插入图片描述

(1)Graph Model
  • Vertex Set:利用 bbox 的坐标信息和外观信息将 detections 关联成 tracklets;坐标信息指(x, y, w, h);外观信息使用 FaceNet 生成512维独立信息;
  • Edge Set:利用 TrackletNet 计算两 tracklets 的相似度,以此计算边权cost值;两个tracklets计算相似度首先需满足“不重叠且帧距离较小”的条件;
  • Tracklet Clustering:以最小化全局边权损失维为目标函数,利用特定算法将图划分为各个连接子图,每个子图即对应一个目标的所有 tracklets,最后对其进行连接即可;
(2)Tracklet Generation

在这里插入图片描述
tracklet 需要使用坐标信息和外观信息用高阈值对 detections 进行数据关联,即 IOU 和外观相似度;而为了对抗相机运动,作者使用EG算法预测下一帧bbox,对IOU算法进行了改进。

简单来说,EG算法假设检测框在相邻帧之间静止或缓慢移动,且大小不变,并进行以下步骤:

  • 利用相邻帧匹配的SURF特征点和RANSAC算法,计算出EG算法中的基础矩阵F(即上图中的红色极线);
  • 设计损失函数,对 “下一帧预测框与极线间的坐标差” 、“预测框的尺寸变化” 进行了约束
  • 基于损失函数,利用最小二乘最优化策略,得出下一帧最佳预测框
    在这里插入图片描述
(3)Multi-Scale TrackNet

在这里插入图片描述
TrackNet 是一个精心设计的网络结构,输入两个 tracklets,输出其相似度,其主要有以下关键点:

  • 特征维度:对于每一对儿 tracklets,输入其4D位置信息和512D外观信息,且按64D时域维度铺展开(两个tracklets可能只占64D时域空间的两小部分,tracklet-1从0维开始,两 tracklets 间的空隙用插值法填充,trackelt-2 后的空隙进行 zero-padding);
  • 二元掩膜:为了更好地表征两 tracklets 的持续时间,在输入特征通道处又加了两个 binary mask 通道;
  • 1D 滤波:三个Conv/MaxPool层使用了四种 1D filters,对所有特征仅进行时间维度卷积和下采样,从而计算特征的连续性;随着卷积的不断进行,感受野不断增大,从而可以获取更加全局的连续性信息;不同卷积核尺寸则侧重不同时域尺度的特征;
  • 均值池化:三个 Conv 后接均值池化,对所有时域维度(8D)上的所有外观特征分别进行计算均值(加权投票),即最后每个通道每维时域上仅(4+1)维特征;
  • 全连接层:最后对特征进行 concatenate 后,用两个 FC 层输出相似度得分;
  • 另外,作者指出,经过网络精心的设计,可以防止小数据量引起的过拟合问题。

4. 其它

  • 文章在第二部分Related Work中介绍了以下方面的相关研究:Graph Model based Tracking、Tracking by RNN、Tracking by Feature Fusion、End-to-End Tracking等;
  • 文章在第五部分Experiments中介绍了以下方面的内容:Dataset、Implementation Details、Feature Map Visualization、Tracking Performance、Ablation Study等。

5. 结束

(日常交给作者来结束~)
在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值