多目标追踪相关 + reid

最新推荐文章于 2024-06-14 09:44:04 发布

Jelly_Believer

最新推荐文章于 2024-06-14 09:44:04 发布

阅读量2.6k

点赞数

分类专栏： paper 文章标签：目标跟踪算法人工智能

本文链接：https://blog.csdn.net/weixin_42438346/article/details/120917731

版权

paper 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。
和目标检测的最大区别：仅仅使用目标检测无法给对象分配ID，并且多目标跟踪算法能够优化轨迹，能让目标框更加稳定。
多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking，对前后两帧进行目标检测，然后根据得到的前后两帧的所有目标进行匹配，从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。

Tracking by detection:

We will focus on algorithms where a set of detections is provided(rememnber detections are not perfect)
Find detections that match and form a trajectory.

Online vs. offline tracking

Online tracking:
processes two frames at a time
for real-time applications
prone to drifting ➡️ hard to recover from errors or occlusions
Offline tracking:
processes a batch of frames
good to recover fro occlusions(short ones as well as well see)
not suitable for video analysis

Online tracking
在这里插入图片描述

Track initialization(e.g. using a detector)
deep learning has provided us with better detectors
prediction of the next position(motion model)
trajectory prediction
classic: Kalman filter
matching predictions with detections(apearance model)
improving appearance models ➡️ re-identification(in a few slides)
matching still happens separately from learning.➡️ mot as a graph problem
bipartite matching
— solve the unique assignments that minimize the total cost

making detectors as tracktors
cons: there is no notion of “identity” in the model - confusion in crowded spaces
cons: as any online tracker, the track is killed if the target becomes occluded - need to close small gaps and occulsions
solution: Re-ID

cons: the regressor only shifts the box by a small quantity - large camera motions - large displacements due to low framerate
solution: Motion model

modeling appearance. ------->. re-id
modeling motion ------- motion model

Re-ID

在这里插入图片描述
similarity learning
triplet loss alows us to learn a ranking

行人重识别系统：

feature extraction：学习能够应对在不同摄像头下行人变化的特征
metric learning：将学习到的特征映射到新的空间使相同的人更近不同的人更远
matching：根据图片特征之间的距离排序，返回检索结果

数据集

通过人工标注或者检测算法得到的行人图片
数据集分为训练集，验证集，query以及gallery
在训练集上进行模型的训练，得到模型后对query与gallery中的图片特征提取特征计算相似度，对于每个query在gallery中找出前N个与其相似的图片
训练，测试中人物身份不重复

基于深度学习的行人重识别

表征学习：没有直接在训练网络的时候考虑图片间的相似度，而是把行人重识别任务当作分类问题或者验证问题来看待
度量学习：在通过网络学习出两张图片的相似度，表现为同一行人的不同图片间的相似度大于不同行人的不同图片

全局特征

局部特征：

part：是指通过一定规则（例如姿态点信息）手工设置的一些矩形框区域
attention：是指（在一定的约束条件下）网络自动学习出的比较重要的任意形状区域

在这里插入图片描述

MOT中的评价指标
在这里插入图片描述
评价出发点：

所有出现的目标需要及时能够找到
目标位置要尽可能与真实目标一致
每个目标都给分配一个unique ID，并且这个ID在整个序列中保持不变

评价指标数学模型：
参考：多摄像头多目标追踪指标

建立目标与假设最优间的最优一一对应关系，称为correspondence
对所有的correspondence，计算位置偏移误差
累积结构误差 a. 计算漏检数 b. 计算虚警数（不存在目标却判断为目标） c. 跟踪目标发生跳变的次数

在这里插入图片描述

MOTA(Multiple object tracking accuracy)

FN，FP，IDSW，GT分别为false negtive, false positive, id switch以及gound truth的物体数量
MOTA主要考虑的是tracking中所有对象匹配错误，主要是FP,FN,IDs. MOTA给出的是非常直观的衡量跟踪其在检测物体和保持轨迹时的性能（仅仅考虑跟踪器出错的次数），与目标检测精度无关。
MOTP(Multiple Object Tracking Precision)

d为检测目标和i给它分配的ground truth之间在所有帧中的平均度量距离

使用bonding box的overlap rate来进行度量（在这里MOTP是越大越好，但对于使用欧氏距离进行度量的就是MOTP越小越好，这主要取决于度量距离d的定义方式）；而c为在当前帧匹配成功的数目。MOTP主要量化检测器的定位精度，几乎不包含与跟踪器实际性能相关的信息。

MT(Mostly Tracked)
满足Ground Truth至少在80%的时间内都匹配成功的track，在所有追踪目标中所占的比例。注意这里的MT和ML与当前track的ID是否发生变化无关，只要Ground Truth与目标匹配上即可。
ML(Mostly Lost)
满足Ground Truth在小于20%的时间内匹配成功的track，在所有追踪目标中所占的比例
ID Switch
Ground Truth所分配的ID发生变化的次数
FP (False Positive)
当前帧预测的track和detection没有匹配上，将错误预测的track点称为FP，如图1所示。是否匹配成功与匹配时所设置的阈值有关。
FN (False Negative)
当前帧预测的track和detection没有匹配上，将未被匹配的ground truth点称为FN（也可以称为Miss）
ID scores
MOTA的主要问题是仅仅考虑跟踪器出错的次数，但是有一些场景（比如航空场景）更加关注一个跟踪器是否尽可能长的跟踪一个目标。这个问题通过构建二分图来解决，主要计算对象是IDTP、IDFP、IDFN。

在这里插入图片描述

Jelly_Believer

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
多目标追踪相关 + reid

多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。和目标检测的最大区别：仅仅使用目标检测无法给对象分配ID，并且多目标跟踪算法能够优化轨迹，能让目标框更加稳定。多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking，对前后两帧进行目标检测，然后根据得到的前后两帧的所有目标进行匹配，从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。MOT中的评价指标评价出发点：..
复制链接

扫一扫

专栏目录