TNT

最新推荐文章于 2022-10-09 11:58:10 发布

dyhBUPT

最新推荐文章于 2022-10-09 11:58:10 发布

阅读量1.4k

点赞数 2

分类专栏：计算机视觉文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_42191914/article/details/103619045

版权

20 篇文章 3 订阅

订阅专栏

在这里插入图片描述
如上图所示，TNT（TrackletNet Tracker）是一种性能优秀的跟踪器，其关键指标（MOTA、IDF1）都表现良好，且有不俗的抗FN能力。

关键技术：

Tracklet-based Graph Model： 将 tracklet 作为顶点、将两 tracklets 间相似度（的减函数）作为边权的无向图，可以通过顶点聚类算法完成 “tracklet-to-trajectory” 过程；
Multi-scale TrackletNet： 输入两 tracklets，输出其相似度，最大特点是用时域1D滤波器充分利用了 tracklets 的时态信息（temporal info）；
EG-IOU： 在做帧间detections关联时，使用 Epipolar Geometry（对极几何）对下一帧检测框做最佳预测，从而优化 IOU 算法；

关键能力：

Graph Model 的设计可以充分使用时域信息、降低计算复杂度等；
TrackletNet 作为一个统一(unified)的系统，将外观信息(appearance)和时态信息(temporal)合理地结合了起来；注意，传统的时态信息一般是 bbox 的位置、大小、运动等信息，而 TrackletNet 通过时域卷积池化等，挖掘了外观信息中蕴含的时态信息（即外观信息的时域连续性）
EG 技术可以有效对抗相机运动带来的错误关联问题；

在这里插入图片描述
我用一张图大致总结了 TNT 整体的框架结构，见上图。

核心部分（粉色框）：算法的核心是 Graph Model 的构建和聚类；Graph 的顶点来自 tracklets，边权代表两 tracklets 之间的关联损失（越小越相似）；完成 Graph 的构建后，可以通过最小化全局损失的图划分算法，对 Graph 中的顶点进行聚类，每一个 cluster 即对应一个 target，将每个 cluster 中的 tracklet 进行连接（用线性插值不全缺少的detections）即得到所有的 object trajectories。
关键部分（橘色框）：EG-IOU 和 TrackletNet 是本文中两个关键技术；EG用于优化 tracklets 生成过程中的 IOU 指标；TrackletNet 用于计算两 tracklets 之间的相似度。
训练部分（灰色框）：训练时，detections 和 tracklets 需要用到训练数据，作者对其进行了数据增强；对 detections 进行了尺寸位置随机化；抽样 tracklets 时进行了随机划分和抽取，并保证正负样本均衡。

本部分更详细地介绍文中几种关键技术。
在这里插入图片描述

Vertex Set：利用 bbox 的坐标信息和外观信息将 detections 关联成 tracklets；坐标信息指（x, y, w, h）；外观信息使用 FaceNet 生成512维独立信息；
Edge Set：利用 TrackletNet 计算两 tracklets 的相似度，以此计算边权cost值；两个tracklets计算相似度首先需满足“不重叠且帧距离较小”的条件；
Tracklet Clustering：以最小化全局边权损失维为目标函数，利用特定算法将图划分为各个连接子图，每个子图即对应一个目标的所有 tracklets，最后对其进行连接即可；

在这里插入图片描述
tracklet 需要使用坐标信息和外观信息用高阈值对 detections 进行数据关联，即 IOU 和外观相似度；而为了对抗相机运动，作者使用EG算法预测下一帧bbox，对IOU算法进行了改进。

简单来说，EG算法假设检测框在相邻帧之间静止或缓慢移动，且大小不变，并进行以下步骤：

在这里插入图片描述
TrackNet 是一个精心设计的网络结构，输入两个 tracklets，输出其相似度，其主要有以下关键点：

特征维度：对于每一对儿 tracklets，输入其4D位置信息和512D外观信息，且按64D时域维度铺展开（两个tracklets可能只占64D时域空间的两小部分，tracklet-1从0维开始，两 tracklets 间的空隙用插值法填充，trackelt-2 后的空隙进行 zero-padding）；
二元掩膜：为了更好地表征两 tracklets 的持续时间，在输入特征通道处又加了两个 binary mask 通道；
1D 滤波：三个Conv/MaxPool层使用了四种 1D filters，对所有特征仅进行时间维度卷积和下采样，从而计算特征的连续性；随着卷积的不断进行，感受野不断增大，从而可以获取更加全局的连续性信息；不同卷积核尺寸则侧重不同时域尺度的特征；
均值池化：三个 Conv 后接均值池化，对所有时域维度（8D）上的所有外观特征分别进行计算均值（加权投票），即最后每个通道每维时域上仅（4+1）维特征；
全连接层：最后对特征进行 concatenate 后，用两个 FC 层输出相似度得分；
另外，作者指出，经过网络精心的设计，可以防止小数据量引起的过拟合问题。

文章在第二部分Related Work中介绍了以下方面的相关研究：Graph Model based Tracking、Tracking by RNN、Tracking by Feature Fusion、End-to-End Tracking等；
文章在第五部分Experiments中介绍了以下方面的内容：Dataset、Implementation Details、Feature Map Visualization、Tracking Performance、Ablation Study等。

（日常交给作者来结束~）
在这里插入图片描述

关注

专栏目录