abstract:
- MTMCT: 从多个摄像头采集的视频中跟踪多个人。
(MTMCT) tracks many people through video taken from several cameras.- Re-id:从一系列图片中检索与一张被查询图片相似的图片。
(Re-ID) retrieves from a gallery images of people similar to a person query image.- 我们用CNN为MTMCT和Reid学习好的特征
We learn good features for both MTMCT and Re-ID with a con-
volutional neural network.
contribution:
We examine the correlation between good Re-ID and good MTMCT scores, and perform ablation studies to elucidate the contributions of the main components of our system
introduction:
MTMCT目标:给定多个摄像头采集的视频,在所有视频帧中决定每个人的位置。
MTMCT是有难度的:为减少成本,摄像头分布较远,并且视野域不总是重叠的。所以挑战有:遮挡,视角变化,光照变化,行人数量提前未知,要处理的数据量巨大,等等。
Re-id:与MTMCT密切相关。给定一张查询图片,re-id的系统将会从一系列其他人的快照数据库中检索图片(不同摄像头,不连续帧),然后根据与被查询图片的相似度,降序排列。在数据库中,与被查询图片身份相同的图片将排在前面。
二者不同:
- 任务不同
Re-id排列对于一张查询图片的距离。(相似度)
MTMCT把图像对分成相同身份或者不同身份。(分类)- metric不同
Reid:排列性能
MTMCT:分类错误率
这似乎表明外观特征要从不同的loss中学习。Ideally,
reid的loss应当确保:对于任意一张(any query)查询图片a来说,图片a与身份相同的特征之间的最大距离要小于图片a与与之身份不同的特征之间的最小距离。这可以确保,对于任意给定的查询图片,可以得到正确的特征排列。
MTMCT的loss应当确保:任意两个(any two)身份相同的特征之间的最大距离要小于任意2个不同身份的特征之间的最小距离。这样在同一种身份和不同种身份的距离之间就有一个间隔margin。
So, 0-MTMCT loss意味着0-reid loss。
但是,用MTMCT的loss进行训练代价很高,因为要求用所有的特征对作为输入。此外,相同身份对的数量和不同身份对的数量(超级多)很不平衡。
在本文中,采用了一种Reid类型的三重损失函数(triplet loss function),训练过程基于难例挖掘,并且获得了高性能的特征。实验也展示出在适度拥挤的情况下跟踪时,将reid rank的准确度提高,超过一定点时,会使得MTMCT的收益递减。(起反作用了呗)
为了把特征用于MTMCT,提出了一个pipeline。
参考:https://blog.csdn.net/sunshinezhihuo/article/details/80524673