关于目标追踪问题和重识别问题的一点学习笔记,参考知乎大佬的帖子:
重识别(re-ID)特征适合直接用于跟踪(tracking)问题么?
本文要介绍的是澳洲国立大学(Australian National University)郑良老师实验室和清华大学电子系计算机视觉实验室合作的工作《Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking》。
文章链接:arXiv;代码:re-id feature extraction,tracker & Locality Aware Appearance Metric
1. 跟踪问题和重识别问题的区别
首先,tracking问题和re-ID问题的本质区别:局部匹配和全局匹配。
- 跟踪系统主需要局部匹配(同意向及相邻帧/相邻相机)内的样本
- 重识别系统需要全局(全部相机的所有数据)搜索匹配。
这就出现了什么问题呢:你直接在跟踪问题使用全局学习的重识别特征并不能得到最好的结果的。
第一行则是重识别问题在全局领域中搜索特定的目标,在查找所有相机进行匹配;
第二行是单相机跟踪,它只关心相邻帧而不关心其他相机的情况;
第三行是多相机跟踪问题,它只关心相邻相机,不关心目标不可能涉及到的连续出现的相机。
局部/全局不指代单张行人图片中的部分/整体,而是指代匹配数据的选择范围。
2. 多目标、多相机跟踪
多目标、多相机(multi-target, multi-camera tracking),关注多相机内每一帧中,每个目标的身份,以及所在的位置(bounding box和身后的轨迹)
跟踪系统中,相似度估计是数据匹配的标准,是一个非常重要的部分。近年随着行人/车辆重识别技术的飞速发展,重识别特征被广泛利用于跟踪问题中的相似外观估计。
匹配问题中经常使用时间滑动窗来解决
跟踪问题是局部匹配的问题? 由于目标轨迹的连续性,跟踪系统只需要匹配一个局部的邻域中的目标,则不需要全局匹配。
局部邻域:单相机跟踪中,指同相机的连续帧内的样本,跨相机跟踪指代相邻(距离较小)的几个相机内的样本。
全局:指代全部相机内的所有样本。
而重识别问题无法得到目标的轨迹。这就决定了重识别问题被描述成全局匹配问题,而全局匹配问题中重识别特征一般由全局随机采样训练而成。
3. 局部?全局问题
跟踪系统中的匹配一般被限制在局部邻域内,相似度估计的结果直接决定数据匹配的性能。
全局度量一般利用模型的全局性能照顾各类外观的变化。
局部领域内样本的直接区分一般较小,(同相机连续帧/相邻相机之间,可能出现的外观变化有限,远小于全部相机间的各种组合),全局模型由于能力有限,却不能有效区分相似样本。
4. 训练局部邻域内目标外观的度量
有方法是一种局部邻域内目标外观的度量,它不需要照顾全局匹配中的各种外观变化,只需要照顾局部匹配中各种可能出现的几种外观变化,对相似样本也更加有效。
相机内/相机间匹配时,采用一种类似于跟踪系统为了限制匹配范围使用的时间滑动窗,文章也使用相似样本的选择窗训练相机内、相机间度量。
相机内度量:通过样本选择窗,选择同相机相邻帧内的正负样本对。
相机间度量:通过选择样本选择窗,选择不同相机的正样本对,以及来自任意相机的负样本对。
训练相机内/相机间度量的两种样本选择窗
局部敏感的外观度量使用最基础的全连接模型和交叉熵损失函数
文章的主要贡献在于发现跟踪系统相似度估计和重识别特征之间,局部vs全局的失配;并提出一套简单易行的训练局部邻域内目标外观度量的方法。该度量使用的模型和损失函数,并非文章的贡献点。如上图,文章使用了最基础的全连接模型和交叉熵损失函数。