文章目录
- 写在最后话
- 一 目标检测算法综述
- 二 多目标追踪(MOT)~~综述
写在最后话
暂时只写了个大框架
针对目标追踪:
Deepsort至今仍被广泛部署使用
ByteTrack(2022.7):算法较新,结论相对还可以。
一 目标检测算法综述
见上一篇博文
二 多目标追踪(MOT)~~综述
1 Multiple Object Tracking(MOT)现有算法
1.1 MOT:(1)在每帧图上做目标检测;(2)前后相邻两帧上目标关联(匈牙利)。
1.2 步骤:【①目标检测;②特征提取;】③目标关联。
现有算法:SORT、Deep SORT、。。。 。。。
2 分类详解
2.1 多目标跟踪–SORT(2016)
SORT(Simple Online and Realtime Tracking)。
(1)SORT最大特点是基于Faster R-CNN的目标检测方法,利用卡尔曼滤波算法+匈牙利算法,极大提高了多目标跟踪的速度,同时达到了SOTA的准确率。
(2)kalman滤波:预测和更新。该算法将目标的运动状态定义为8个正态分布的向量。
2.2 多目标跟踪–DeepSort(2017)
~~ 算法工业界关注度非常高,依赖检测。
DeepSort中最大的特点是加入外观信息,借用了ReID领域模型来提取特征,减少了ID switch的次数。
(1)在Deep SORT中,我们使用更加可靠的度量来代替关联度量,并使用CNN网络在大规模行人数据集进行训练,并提取特征,已增加网络对遗失和障碍的鲁棒性。
(2)状态估计: 使用一个8维空间去刻画轨迹在某时刻的状态。kalman滤波器(采用匀速模型和线性观测模型)预测更新轨迹。
(3)在IOU Match之前(利用了外观特征和马氏距离)做了一次额外的级联匹配。使用马氏距离来评测预测的Kalman状态和新来的状态
2.3 多目标跟踪–DeepSort的改进版( JDE和MOTDT)
(1) 【图像目标检测器+空间特征(deepsort中的外观特征)】+时间特征 + 二部图匹配算法
(2)上述(1)其实就是在做目标检测的同时,把目标的外观特征提取出来,即把他们放在一个网络中。
······deepsort比sort加入了外观信息,相对解决了被遮挡目标重新出现后,ID与遮挡前不匹配的问题。
2.4 多目标跟踪–ByteTrack(2022)
(1)使用 YOLOX 对视频执行 MOT,使用 BYTE 执行检测框和轨道之间的关联。
2.5 CenterTrack:Tracking Objects as Points
(1)把目标看作一个点做目标检测,根据中心点距离利用贪心算法匹配。
2.6 FairMOT
(1)在 FairMOT 中,对象检测和重识别任务得到同等对待。
2.7 chainedTracker
2.8 Transformer应用到MOT(TransTrack、TrackFormer)
2.4 单目标跟踪
单个目标的跟踪(或重点几个目标跟踪,人为指定目标,没有必要跟踪当前场景中的所有目标)
2.4.1 基于CNN的跟踪器
(4)通过使用两个相同的CNN分支提取目标模板和搜索区域的特征。再使用相关函数在搜索区域的特征中找到目标特征的相似性来完成目标定位。尽管相关操作对于特征相似性匹配过程简单且快速,但它不足以捕捉目标模板和搜索区域之间的非线性交互(遮挡、变形和旋转)。==>研究人员开始使用Transformer对基于CNN-Transformer的跟踪器进行特征融合。
2.4.2 基于Transformer的追踪器
2.4.3 基于CNN-Transformer的跟踪器
(1)由于CNN是通过局部卷积核捕获特征的,基于CNN-Transformer的跟踪器很难捕获全局特征表示。尽管基于CNN-Transformer的跟踪器利用了Transformer的注意力机制进行特征增强和目标模板和搜索区域的特征集成,但它们仍然依赖卷积特征,因为它们使用主干CNN进行特征提取。
(2)Transformer架构中,所有编码器层都有两个子层:一个自注意力层和一个全连接的前馈层。所有解码器层在在中间都有一个编码器-解码器注意层。
(3)基于CNN的跟踪器仅依赖于CNN架构进行特征提取和目标检测,而基于CNN-Transformer的跟踪器和完全基于Transformer的跟踪器分别部分和完全依赖于Transformer架构。
2.5 MTMCT(多目标多摄像头跟踪)
3 评价指标
ref:[1] https://blog.csdn.net/Orange_sparkle/article/details/129519534
1)FP:False Positive,即真实情况中没有,但跟踪算法误检出有目标存在。
2)FN:False Negative,即真实情况中有,但跟踪算法漏检了。
3)IDS:ID Switch,目标ID切换的次数。
4)MOTA: Multiple Object Tracking Accuracy,多目标跟踪准确度。
MT:Mostly Tracked,大多数目标被跟踪的轨迹数量。
ML:Mostly Lost,大多数目标被跟丢的轨迹数量。
FPS:Frames Per Second,每秒处理的帧数。
IDF1: ID F1得分,正确身份标签赋予的检测框与平均ground truth和计算的检测数量的比值。IDF1 强调关联准确性而不是检测。