【ReID论文阅读(一)】(2019CVPR)State-aware Re-identification Feature for Multi-target Multi-camera Tracking

导言

最近开始研究reid问题,打算从后往前,把cvpr的论文读一读,现在开始第一篇:状态注意的重识别特征(多目标、多摄像头跟踪)
这个功能是我现在最需要的!(由于是第一篇读这方面的论文,把前面的也好好看了一下,以后就会抓重点了)

摘要

多目标多摄像头跟踪是为了从一系列的摄像头中提取轨迹。
虽然由于reid模型的发展应用,这种跟踪的表现有了很大提升,但是表观特征通常由于遮挡或者目标的变化而变得不可靠。直接应用reid模型会造成IDS(目标ID跳变)和由于遮挡造成的轨迹分段。
由此,作者提出了一种新颖的跟踪框架。


1.遮挡状态和方位信息被应用到考虑人体姿态信息的reid模型。
2.跟踪轨迹关联使用一种融合跟踪特征的方法去解决轨迹片段化的问题。


1.介绍

特征表示、遮挡处理、推理都是非常重要的部分对于MOT和MTMCT。本文将两个部分合二为一!
外观信息对于联系ID非常重要,已经有很多可靠的外观模型(颜色直方图、HOG特征是以前常用的模型,它们对遮挡不鲁棒,也不能处理外观变化)。
最近,reid模型被广泛应用到区分外观描述。他说reid数据集没有遮挡的例子,所以直接把reid模型嫁接到到检测器上,在拥挤场景表现不好。(其实我有点不这么认为,因为并不是每一帧都要进行reid匹配,这个想法可能以后会变,深入这个方向以后,也请大佬多多指点)
然后作者就说了我上面括号提到的问题。为了处理遮挡问题,他想要获取检测的遮挡状态,当目标稳定检测到时(就是不被遮挡),才进行reid特征提取,遮挡的目标的特征被舍弃;为了处理方向问题,方向注意loss(方向注意的特征)被提出去解决这个问题。
有的工作把最近帧的reid特征作为轨迹的特征,还有的把所有reid特征平均化作为轨迹特征。但是现存的reid特征无法处理由于背景变换、姿态、方向和关键点的变化而造成的目标外观变化。因此,reid特征的后期处理对于跟踪来说是非常重要的。
实时跟踪通常会造成轨迹的片段化,离线的跟踪会对片段化的轨迹做一个关联来生成最后的轨迹。在本文工作中,一个轨迹关联的方法用于处理片段化的轨迹。
综合以上加粗字体,作者提出了
1.状态注意机制的reid特征(更加关注额外的人体姿态信息,主要是遮挡状态和方向信息)。
2.融合轨迹特征被设计用来表示轨迹片段的特征,之后用一个distance matrix表示轨迹特征去做数据关联。
3.最后轨迹片段的关联包括轨迹修正和轨迹聚类。

2.近期工作

2.1 单摄像头跟踪

作者分为两个方向,一个是实时,一个是离线(之前只接触过online跟踪,今天第一次接触还有这个离线跟踪,是我孤陋寡闻了哈哈,离线跟踪就是先生成准确的小段轨迹,再处理匹配成完整轨迹)。

2.2 多摄像头跟踪

重点问题是光照变化、关键点变化和盲区摄像头。(这部分介绍有很多专业名词和方法了,我需要好好消化一会。。。)

2.3 外观特征

深度学习。。。没什么好说的。基本都是跟踪特征和检测特征的匹配问题,利用历史特征之类的。

3.所提方法

3.1 状态估计(遮挡和方向)

遮挡状态判定

公式如下,如果关键点的置信度大于阈值,判定为有效关键点,当有效关键点大于关键点阈值,则说明大部分关键点是可见的,说明没有被遮挡。
在这里插入图片描述
否则不启用reid特征提取。

方位估计

方位估计靠几个关键点来确定,总共分为4个方位状态(左、右、前、后),如下图。
在这里插入图片描述
方位估计用一个DNN做分类任务,共14个关键点作为输入,4个方位状态作为输出,网络结构如下图。
在这里插入图片描述

3.2 融合跟踪特征

融合的跟踪特征包括五个部分{当前特征,方位特征,聚类特征(?),无效特征,平均特征}(个人感觉不是很有必要。。。后者说可以训练这个各个特征的权重?maybe)

当前特征

即最近一次的有效特征

方位注意特征

这是一个集合,包含四个方位的特征,这四个参数分别是历史特征中各个种类的特征分别的平均值,例如,左方位特征是历史中所有左方位特征的均值。
在数据关联时,检测得到的特征会与方位特征中的同方位的特征元素做外观距离计算。并且两个轨迹片段是否匹配也是一句同方位特征的Euclidean距离作为判定依据。

基于聚类的特征

不太明白,放原文大佬帮忙理解一下。
在这里插入图片描述

暂时无效的特征

作者说保存这个特征会使轨迹更加平滑,值得注意的是,无效特征只保留最后一帧的无效特征,并且当失效时会从五个特征中移除。(这里也不太明白)

平均特征

是所有历史有效特征的平均值。(不分方向)

3.3 单摄像头跟踪

3.3.1 跟踪阶段

作者分为4个跟踪阶段(暂定、确定、不可见、消失)
大致的流程是:如果没有匹配到的检测,则根据遮挡状态初始化新轨迹。如果遮挡,初始化为暂定阶段,否则,初始化为确定阶段。如果确定阶段的轨迹消失了n次,则进入不可见阶段,如果不可见阶段的轨迹消失了m次,则转入消失阶段。不可见阶段的轨迹如果又匹配到了,就会回到确定阶段。另外,如果暂定阶段的轨迹消失了一帧,则转入消失阶段,如果匹配到了有效特征,则转入确定阶段。
我佛了,他说了这么大段,都不如画个图。。虽然都是大白话,很好懂。
作者说,这样错误的检测就会被消除,并且消失的轨迹会被移除。

3.3.2 SCT框架

这里他用到了SCT框架,具体步骤,,就不翻译了,太冗杂了,不过这个图画的比较清楚。
在这里插入图片描述

3.3.3 数据关联中的距离矩阵

这里主要说的是轨迹和检测的距离矩阵,就是上文提到的计算轨迹和检测的Euclidean距离。

3.3.4 轨迹关联

为了联系片段化的轨迹。

物理约束

1.同时出现的轨迹片段不能关联。
2.目标的位移不能超过最大速度。
3.目标不能消失很长时间。(这一点。。就决定了这篇文章与我无关了,但是还是坚持看下去。。不哭

轨迹修正

为了让目标遮挡后回归跟踪。

轨迹聚类

为了让所有的轨迹片段建立联系。

3.4 多摄像头跟踪

多摄像头跟踪靠距离矩阵和贪婪算法实现。
首先,收集所有摄像头的所有轨迹,重复3.3.4的步骤,重建距离矩阵,然后用贪婪算法关联距离近的轨迹。

3.5 实现细节

reid模型

resnet-34

位姿估计

Alpha位姿

参数设置

就不说了。。。

4.实验部分

说了一些使用的数据集,做了消融实验,和其他SOTA方法做了对比。

总结

这篇算是我入门的第一篇,但是和我研究的长时reid有很大不同,一看题目,感觉找到了宝,仔细看了,确实关系不大,还得继续研读论文。
不过我很好奇这个方法的速度,用了检测,跟踪,姿态估计,reid,这么多网络和算法。。。
代码也没有开源,所以,进入下一篇,这一篇对我来说还是太难,太复杂了,后面再慢慢补知识吧!

Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值