基于深度学习的行人Re-ID问题的综述和展望
写在前面:
写完之后发现git上作者给了一个在知乎发表的官方论文介绍,官方中文概述
我做的稍微详细一点,可以跟官方的对比着看,如有错误请指正。
主要概括:
关键字:closed-world, open-world
本文的主要内容:1)通过讨论现有的深度学习方法的优势和局限性,分析最新技术,我们对现有深度学习方法进行了深入而全面的分析。 这为将来的算法设计和新主题探索提供了见解。2)新的baseline AGW和一个新的评判指标mINP。 3)我们试图探讨一些重要的研究方向,并对未充分研究的开放问题进行研究,以缩小封闭世界和开放世界应用程序之间的差距,并朝着真实世界的Re-ID系统设计迈出一步。
介绍:
总结了做行人Re-ID整体流程的五大步骤:
- 数据采集,一般来源于监控摄像机的原始视频数据;
- 行人框生成,从视频数据中,通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来,图像中行人将会占据大部分面积;
- 训练数据标注,包含相机标签和行人标签等其他信息;
- 重识别模型训练,设计模型(主要指深度学习模型),让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”;
- 行人检索,将训练好的模型应用到测试场景中,检验该模型的实际效果。
根据上面5个步骤就把现存的行人Re-ID方法分成两类:closed-world, open-world。并且主要通过五个方面对比了一下这两类的区别:
- 数据问题,主要是单模态数据和异构数据之间的区别;
- b-box的有无问题;
- 有没有足够的标注问题(实际上也就是跟监督学习,弱监督、无监督有关);
- 标注是否正确(是否有噪声标注,坏数据之类的);
- 查询目标是否存在于gallery中(是否是开放数据集)。
Closed-World行人Re-ID
最基本的假设就是遵照上面的五点:
- 通过单模态可见摄像头(图像或视频)捕获人的外表;
- 这些人由边界框表示,其中大多数边界框区域属于同一标识;
- 该训练有足够的标注训练数据用于监督判别的再识别模型学习;
- 注释通常都是正确的;
- 查询目标必须在gallery里。
那么,通常来说,Closed-World行人Re-ID系统是由三个部分组成:特征学习,度量学习和排序优化。研究人员的方法通常针对这三方面进行改进,侧重点不同。有的是提出了新颖的特征学习方法,有的提出有效的度量损失函数,也有的是在测试检索阶段进行优化。在本章节末尾,还概括了现有的常用数据集和评价指标,以及现有 SOTA 的优缺点分析。
特征表示学习
主要分为四个点:1)全局特征;2)局部特征;3)辅助特征(使用一些辅助信息加强特征学习);4)视频特征。
全局特征表示学习
全局特征表示学习为每个人图像提取全局特征向量,参考图2的(a)。
为了捕获全局特征中的细粒度信息,主要提出方案有联合学习框架、多尺度特征提取等等。
注意力信息.
- person image的attention,主要就是像素级别的注意力以及通道方式的特征响应重新加权或背景抑制。
- 跨多个person image之间的attention,譬如序列之间上下文感知信息的注意力特征学习方法、组相似性(是利用交叉图像注意力的另一种流行方法,该方法涉及多个图像用于局部和全局相似性建模)。
局部特征表示学习
它学习部分/区域聚合的特征,使其对不对齐具有鲁棒性。在自动检测人体部位的情况下,目前流行的解决方案是将全身表现和局部部位特征相结合。
辅助特征表示学习
辅助特征表示学习通常需要附加注释信息(例如语义属性)或生成/增强的训练样本,以增强特征表示。
**语义属性.**就是通过一些语义信息加强特征的学习,增加学习的鲁棒性等等。
**视角信息.**视点信息也被用来增强特征表示的学习,主要应该就是考虑的不同视角得到的特征对学习起帮助。
**域信息.**主要看怎么定义学习中的域,比如将每个相机看作一个域,提出了一个多相机一致匹配约束,以在深度学习框架中获得全局最优表示。
**GAN生成.**将GAN生成的图像用作辅助信息。
**数据增强.**就是一些数据增强的手段。
视频特征表示学习
基于视频的Re-ID是另一个热门话题,其中每个人都用一个多帧的视频序列来表示。由于其丰富的外观和时间信息,在Re-ID社区中引起了越来越多的关注。这也给多幅图像的视频特征表示学习带来了额外的挑战。主要的挑战是准确地获取时间信息、视频中不可避免的异常值跟踪帧、处理不同长度的视频序列。
结构设计
主要提到的就是根据精度、效率上的一些要求来改进网络结构使其更适合用于行人Re-ID场景。
深度度量学习
在深度学习时代之前,通过学习马氏距离函数或投影矩阵,对度量学习进行了广泛的研究。 现在度量学习的作用已被损失函数设计取代,以指导特征表示学习。
损失函数的设计
对于行人Re-ID,主要研究的损失函数有三种:identity loss、verification loss和triplet loss。
**Identity Loss.**主要就是把行人Re-ID问题看成图片分类问题,每个ID是一个类。通常是softmax-cross-entropy loss函数:
L
i
d
=
−
1
n
∑
i
=
1
n
l
o
g
(
p
(
y
i
∣
x
i
)
)
n
表
示
一
个
b
a
t
c
h
里
的
采
样
个
数
\mathcal{L}_{id}=-\frac{1}{n}\sum_{i=1}^nlog(p(y_i|x_i))\\n表示一个batch里的采样个数
Lid=−n1i=1∑nlog(p(yi∣xi))n表示一个batch里的采样个数
**Verification Loss.**它是优化成对的关系,或者是对比损失、二分类损失。
对比损失改善了相对距离的比较:
L
c
o
n
=
(
1
−
δ
i
j
)
{
m
a
x
(
0
,
ρ
−
d
i
j
)
}
2
+
δ
i
j
d
i
j
2
d
i
j
表
示
两
个
样
本
提
取
特
征
之
间
的
欧
氏
距
离
;
δ
i
j
表
示
一
个
二
进
制
的
l
a
b
e
l
示
性
函
数
(
为
1
的
时
候
表
示
x
i
和
x
j
属
于
同
一
个
身
份
,
否
则
为
0
)
;
ρ
是
一
个
界
限
参
数
\mathcal{L}_{con}=(1-\delta_{ij})\{max(0,\rho-d_{ij})\}^2+\delta_{ij}d_{ij}^2\\d_{ij}表示两个样本提取特征之间的欧氏距离;\\\delta_{ij}表示一个二进制的label示性函数(为1的时候表示x_i和x_j属于同一个身份,否则为0);\\\rho是一个界限参数
Lcon=(1−δij){max(0,ρ−dij)}2+δijdij2dij表示两个样本提取特征之间的欧氏距离;δij表示一个二进制的label示性函数(为1的时候表示xi和xj属于同一个身份,否则为0);ρ是一个界限参数
二分类损失区分一对输入图像的正负,也就是说通过
f
i
j
=
(
f
i
−
f
j
)
2
f_{ij}=(f_i-f_j)^2
fij=(fi−fj)2得到两幅图像的差别特征(其中
f
i
,
f
j
f_i,f_j
fi,fj是
x
i
,
x
j
x_i,x_j
xi,xj的特征)。然后这个verification network就是将差别特征区分为positive或者negative。我们使用
p
(
δ
i
j
∣
f
i
j
)
p(\delta_{ij}|f_{ij})
p(δij∣fij)表示一对图像被识别为
δ
i
j
\delta_{ij}
δij(0或1)的可能性。这个verification cross-entropy loss为:
L
v
e
r
i
(
i
,
j
)
=
−
δ
i
j
l
o
g
(
p
(
δ
i
j
∣
f
i
j
)
)
−
(
1
−
δ
i
j
)
l
o
g
(
1
−
p
(
δ
i
j
∣
f
i
j
)
)
\mathcal{L}_{veri}(i,j)=-\delta_{ij}log(p(\delta_{ij}|f_{ij}))-(1-\delta_{ij})log(1-p(\delta_{ij}|f_{ij}))
Lveri(i,j)=−δijlog(p(δij∣fij))−(1−δij)log(1−p(δij∣fij))
该loss还经常与identity loss联合使用提高网络的效果。
**Triplet Loss.**它将Re-ID模型训练过程视为检索排序问题。基本的想法是,正的一对之间的距离应该比负的一对之间的距离小一个预定义的界限。一般来说一个triplet包含一个anchor样本
x
i
x_i
xi,一个正样本
x
j
x_j
xj(同一个ID),一个负样本
x
k
x_k
xk(不同ID)。带一个界限参数的triplet loss为:
L
t
r
i
(
i
,
j
,
k
)
=
m
a
x
(
ρ
+
d
i
j
−
d
i
k
,
0
)
d
(
⋅
)
表
示
欧
氏
距
离
\mathcal{L}_{tri}(i,j,k)=max(\rho+d_{ij}-d_{ik},0)\\d(\cdot)表示欧氏距离
Ltri(i,j,k)=max(ρ+dij−dik,0)d(⋅)表示欧氏距离
**Online Instance Matching (OIM) Loss.**OIM Loss是通过一个memory bank scheme设计的。一个memory bank
{
v
k
,
k
=
1
,
2
,
.
.
.
,
c
}
\{v_k,k=1,2,...,c\}
{vk,k=1,2,...,c}包含了储存的实例特征,c表示类别数。OIM Loss表示为:
L
o
i
m
=
−
1
n
∑
i
=
1
n
l
o
g
e
x
p
(
v
i
T
f
i
/
τ
)
∑
k
=
1
c
e
x
p
(
v
k
T
f
i
/
τ
)
\mathcal{L}_{oim}=-\frac{1}{n}\sum_{i=1}^nlog\frac{exp(v_i^Tf_i/\tau)}{\sum_{k=1}^cexp(v_k^Tf_i/\tau)}
Loim=−n1i=1∑nlog∑k=1cexp(vkTfi/τ)exp(viTfi/τ)
v
i
v_i
vi表示类
y
i
y_i
yi的相关储存memory特征,
τ
\tau
τ是一个温度参数,用来控制相似度空间。
v
i
T
f
i
v_i^Tf_i
viTfi衡量的是online实例匹配的分数。后面有一些改进,比如加入没有标记的实例,储存其特征等。
训练策略
因为每个身份的标注训练图像的数量变化很大,同时,正、负样本对的严重不平衡也增加了训练策略设计的难度,所以批量采样策略在Re-ID模型训练中也是一个重要的部分。处理不平衡问题最常用的训练策略是ID抽样,对于每个训练批次,随机选择一定数量的ID,然后从每个选择的ID中抽取几幅图像。该批量抽样策略保证了信息的正、负挖掘。还有其他一些针对性的训练策略等。
排序优化
在测试阶段,排序优化对提高检索性能起着至关重要的作用。排序也就是通过模型提取出查询person的特征与gallery里的person进行比较排序,得出相似度排名。
重排序
重新排序的基本思想是利用gallery与gallery之间的相似性来优化初始排名列表,如图4所示。
一些基本的重排序方法,譬如top-ranked,k-reciprocal reranking等。
**查询自适应.**考虑到查询的差异性,一些方法设计了查询自适应检索策略来替代统一的搜索引擎来提高性能。
**人机交互.**它涉及使用人工反馈来优化排名列表。这在重新排序过程中提供了可靠的监督。
排序融合
排序融合利用通过不同方法获得的多个排名列表来提高检索性能。
数据集和评估
数据集和评估标准
**数据集.**主要介绍了当前的主流数据集
由上表可以得到一些结论:1)数据集规模在快速增加;2)同时也大大增加了摄像机数量,以逼近实际场景中的大规模摄像机网络;3)通常,边界框的生成是自动检测/跟踪的,而不是手动裁剪的。这可以模拟真实情况下的跟踪/检测错误。
**评估标准.**主要是两种评估标准。
CMC-k(又叫Rank-kmatching accuracy)表示在排名靠前k个中的检索结果中出现正确匹配的概率。当每个查询只有一个GT时,CMC是准确的,因为它仅考虑评估过程中的第一个匹配项。然而,在一个大型摄像网络中,galleryset通常包含多个groundtruth, CMC不能完全反映一个模型在多个摄像机之间的辨别能力。
[参考](https://blog.csdn.net/qq_29159273/article/details/104375440)
mean Average Precision (mAP)衡量多个GT的平均检索性能。它最初广泛应用于图像检索。对于Re-ID评估,它可以解决两个系统在搜索第一个ground truth时表现相同但对其他困难的比赛有不同的检索能力的问题(可能很容易匹配,如图4所示)。
考虑到再识别模型训练的效率和复杂性,最近的一些工作也提出了每秒浮点操作数(FLOP)和网络参数大小作为评估指标。当训练/测试设备的计算资源有限时,这两个指标至关重要。
深入分析最新技术
我们从基于图像和基于视频的角度来回顾这两种技术的最新进展。我们包括过去三年在顶级CV大会发表的方法。
**Image-based Re-ID.**我们主要回顾了2019年发表的作品,以及2018年的一些代表作品。
概述激发了五个观点:
第一,随着深度学习的进步,大多数基于图像的Re-ID方法在广泛使用的Market-1501数据集上都达到了比人类更高的rank-1精度(93.5%)。在封闭世界取得的巨大成功也促使人们将注意力转移到更具挑战性的场景,即:大数据量或无监督学习。
第二,部分层次的特征学习有利于有区分的再识别模型学习。全局特征学习直接学习整个图像的表示,而不受局部约束。当人物图像受到较大的背景杂波或严重遮挡时,局部层次特征学习通常通过挖掘有区别的身体区域来获得更好的性能。
第三,注意力对于区分的再识别模型的学习有帮助。注意力捕获了不同的卷积通道,多个特征图,层次结构,不同的身体部位/区域甚至多个图像之间的关系。
第四,多损失训练可以改善Re-ID模型的学习。 不同的损失函数可以从多个角度优化网络,结合多种损失功能可以改善性能。
最后,由于数据集规模的增加,复杂的环境和有限的训练样本,仍有很大的改进空间。
Video-based Re-ID.
三个结论:
首先,随着深度学习技术的发展,可以看到一个明显的性能增长趋势。
其次,空间和时间建模是判别视频表示学习的关键。
最终,这些数据的性能已达到饱和状态,这四个视频数据集的准确度增益通常不足1%。
Open-World行人Re-ID
异构Re-ID
主要总结了四种异构Re-ID
基于深度的Re-ID
应该是说深度图能够捕获形体、细节的信息,对于Re-ID模型训练有帮助。
文本到图像的Re-ID
就是通过文本描述来识别行人
可见光到红外 Re-ID
跨模态匹配白天的可见光图像到夜晚的红外行人图像,也有一些方法直接解决低照度的重识别任务;
跨分辨率 Re-ID
不同高低分辨率行人图像匹配,旨在解决不同距离摄像头下行人分辨率差异巨大等问题
端到端的Re-ID
端到端的reid减轻了对边界框生成的依赖。它包括对原始图像或视频进行重新标识,以及多摄像头跟踪。
**Re-ID in 原始图像视频.**这种任务要求模型在单个框架中共同执行人员检测和重新识别。
**多摄像机追踪.**主要应该还是涉及到真正落地应用。
半监督或无监督的Re-ID
无监督Re-ID
早期的无监督方法学习的都是不变的部分(没有太明白这个形容词),比如字典、度量、显著性等。这就导致了有限的区分性和伸缩性。
对于深度无监督方法,跨摄像机标签估计是最流行的方法之一。其他的还包括一些聚类方法,动态的图匹配方法等。此外,一些方法也尝试学习部分级表示,基于观察,挖掘局部部分的标签信息比挖掘整个图像的标签信息更容易。
**半监督/弱监督的Re-ID.**在标签信息有限的情况下,有one-shot的度量学习方法、逐步one-shot等方法。。
无监督域自适应
无监督域适应(UDA)将标记源数据集上的知识转移到无标记目标数据集上。由于源数据集中存在较大的域偏移和较强的监督能力,因此这是另一种无需目标数据集标签的无监控Re-ID的流行方法。
**目标图像生成.**使用GAN生成将源域图像转移到目标域样式是UDA Re-ID的一种流行方法。 利用生成的图像,可以在未标记的目标域中进行监督的Re-ID模型学习。
**目标域监督挖掘.**一些方法直接从源数据集中使用训练良好的模型来挖掘对未标记目标数据集的监督。
无监督Re-ID最新成果
三个结论:
第一,多年来,无监督的Re-ID性能已显著提高。
第二,目前的无监督Re-ID还有待进一步完善:1)有监督Re-ID方法中强大的注意方案很少在无监督Re-ID中得到应用。2)目标域图像生成在一些方法中已经被证明是有效的,但在两种最佳方法中都没有得到应用3)在目标域的训练过程中使用带注释的源数据有利于跨数据集学习,但以上两种方法也未包括在内。 这些观察结果为进一步改进提供了潜在的基础。
第三,无监督的Re-ID与受监督的Re-ID之间仍然有很大的差距。
噪声鲁棒的Re-ID
由于数据收集和注释困难,Re-ID通常遭受不可避免的噪声。我们从三个方面综述了噪声鲁棒性Re-ID:部分重遮挡的Re-ID、检测或跟踪错误导致的样本噪声的Re-ID、标注错误导致的标签噪声的Re-ID
**Partial Re-ID.**主要解决重度遮挡问题,也就是人体有一部分不可见。
**Re-ID with Sample Noise.**这是指人的图像或视频序列包含外围区域/帧的问题,或者是由于检测不佳或跟踪结果不准确造成的样本噪声问题。
**Re-ID with Label Noise.**由于标注错误,标签噪声往往是不可避免的,针对这样的数据提出一些方法。
Open-set Re-ID and Beyond
主要针对一些其他开放场景进行一些探讨,如1)gallery set 中 query 行人没有出现的场景;2)Group Re-ID:行人群体匹配的问题;3)动态的多摄像头网络匹配等问题
对于Re-ID新纪元的展望
新的评价指标mINP
对于一个良好的Re-ID系统,应该尽可能准确地检索目标人员,即所有正确的匹配项都应具有较低的rank值(?)。考虑到目标person不应该在排名靠前的检索列表中被忽略,特别是对于多摄像头网络,这样才能准确地跟踪目标。当目标人物出现在多个时间戳设置的图库中,最难正确匹配的rank位置决定了检查员进一步调查的工作量。然而,目前广泛使用的CMC和mAP指标不能评估这一特性,如图7所示。
对比两个list,CMC得分相同,AP是第一个更高,但NP第一个也比较大(NP表示最难检索的目标检索出来的难度,也就是说对于list1,我们需要更多的工作量去找到所有正确的匹配目标),这表明虽然CMC指标相同,AP更高的list,但其检索最难目标的表现并不是很好。用1-NP得到INP,更大的INP表示更好的性能。首先来看定义:
N
P
i
=
R
i
h
a
r
d
−
∣
G
i
∣
R
i
h
a
r
d
R
i
h
a
r
d
表
示
最
难
匹
配
的
目
标
的
r
a
n
k
排
名
∣
G
i
∣
表
示
在
g
a
l
l
e
r
y
中
真
正
正
确
匹
配
查
询
目
标
i
的
目
标
个
数
NP_i=\frac{R_{i}^{hard}-\left| G_i \right|}{R_{i}^{hard}}\\R_{i}^{hard}表示最难匹配的目标的rank排名\\\left| G_i \right|表示在gallery中真正正确匹配查询目标i的目标个数
NPi=RihardRihard−∣Gi∣Rihard表示最难匹配的目标的rank排名∣Gi∣表示在gallery中真正正确匹配查询目标i的目标个数
自然,越小的NP代表越好的性能。为了与CMC和mAP保持一致,我们更喜欢使用逆负罚分(INP),即NP的逆运算。总体而言,所有查询的平均INP表示为
m
I
N
P
=
1
n
∑
i
(
1
−
N
P
i
)
=
1
n
∑
i
∣
G
i
∣
R
i
h
a
r
d
mINP=\frac{1}{n}\sum_i{\left( 1-NP_i \right) =\frac{1}{n}\sum_i{\frac{\left| G_i \right|}{R_{i}^{hard}}}}
mINP=n1i∑(1−NPi)=n1i∑Rihard∣Gi∣
mINP的计算效率很高,可以无缝地集成到CMC/mAP计算过程中。mINP避免了在map /CMC评估中容易的匹配占主导地位的问题。一个限制是,与小gallery相比,大gallery的mINP值差异会小得多。但是它仍然可以反映Re-ID模型的相对性能,为广泛使用的CMC和mAP指标提供了补充。
单/跨模态Re-ID的新baseline
主要是基于Bagtrick做的AGW baseline,三点改进:
-
Non-local Attention (Att) Block.使用注意力模块获得所有位置的特征权重
z i = W z ∗ ϕ ( x i ) + x i W z 是 可 学 习 的 权 重 矩 阵 ϕ ( ⋅ ) 表 示 一 个 非 局 部 操 作 + x i 代 表 一 种 残 差 学 习 策 略 z_i=W_z*\phi(x_i)+x_i\\W_z是可学习的权重矩阵\\\phi(\cdot)表示一个非局部操作\\+x_i 代表一种残差学习策略 zi=Wz∗ϕ(xi)+xiWz是可学习的权重矩阵ϕ(⋅)表示一个非局部操作+xi代表一种残差学习策略 -
Generalized-mean (GeM) Pooling. 作为细粒度的实例检索,广泛使用的最大池化或平均池化无法捕获特定域的区分特征。我们采用一个可学习的池化层,称为广义平均池化(GeM)
f = [ f 1 ⋅ ⋅ ⋅ f k ⋅ ⋅ ⋅ f K ] T , f k = ( 1 ∣ χ k ∣ ∑ x i ∈ χ k x i p k ) 1 p k f k 表 示 特 征 图 , K 表 示 最 后 一 层 特 征 图 个 数 χ k 表 示 第 k 个 特 征 图 W × H 的 集 合 p k 是 一 个 池 化 超 参 数 f=[f_1\cdot\cdot\cdot f_k\cdot\cdot\cdot f_K]^T,f_k=(\frac{1}{|\chi_k|}\sum_{x_i\in\chi_k}x_i^{p_k})^{\frac{1}{p_k}}\\f_k表示特征图,K表示最后一层特征图个数\\\chi_k表示第k个特征图W\times H的集合\\p_k是一个池化超参数 f=[f1⋅⋅⋅fk⋅⋅⋅fK]T,fk=(∣χk∣1xi∈χk∑xipk)pk1fk表示特征图,K表示最后一层特征图个数χk表示第k个特征图W×H的集合pk是一个池化超参数在反向传播中,该式得到学习。并且 p k → ∞ p_k \rightarrow \infty pk→∞时近似于最大池化, p k = 1 p_k=1 pk=1时为平均池化。
-
Weighted Regularization Triplet (WRT) loss. 加权正则化的Triplet损失.除了baseline的softmax cross-entropy识别loss,我们加入了另一个加权正则化的triplet loss,
L w r t ( i ) = l o g ( 1 + e x p ( ∑ j w i j p d i j p − ∑ k w i k n d i k n ) ) w i j p = e x p ( d i j p ) ∑ d i j p ∈ P i e x p ( d i j p ) , w i j n = e x p ( − d i k n ) ∑ d i k n ∈ N i e x p ( − d i k n ) \mathcal{L}_{wrt}(i)=log(1+exp(\sum_jw_{ij}^pd^p_{ij}-\sum_kw_{ik}^nd_{ik}^n))\\w_{ij}^p=\frac{exp(d_{ij}^p)}{\sum_{d^p_{ij}\in\mathcal{P}_i}exp(d_{ij}^p)},w_{ij}^n=\frac{exp(-d_{ik}^n)}{\sum_{d^n_{ik}\in\mathcal{N}_i}exp(-d_{ik}^n)} Lwrt(i)=log(1+exp(j∑wijpdijp−k∑wikndikn))wijp=∑dijp∈Piexp(dijp)exp(dijp),wijn=∑dikn∈Niexp(−dikn)exp(−dikn)
( i , j , k ) (i,j,k) (i,j,k)表示在每个batch训练中的一个hard triplet,对每个锚点 i , P i i,\mathcal{P}_i i,Pi是相关的正样本集合, N i \mathcal{N}_i Ni是负样本集合。 d i j p , d i k n d^p_{ij},d^n_{ik} dijp,dikn分别表示一对正样本或一对正负样本之间的距离。上述加权正则化继承了正负对之间的相对距离优化的优点,但它避免了引入任何额外的边界参数。
AGW总体框架如图8所示:
测试阶段采用BN层的输出作为Re-ID的特征表示。补充材料中包含实施细节和更多实验结果。
**单模态图片Re-ID的结果.**首先是在两个基本数据集上测试了每个部分的作用。
还有与一些SOTA方法的对比;
**单模态视频Re-ID的结果.**在4个广泛使用的单模态视频数据集上评估了所提出的AGW。
**有遮挡的Re-ID结果.**测试了两个遮挡Re-ID数据集的AGW性能
**跨模态Re-ID的结果.**在跨模态可见光红外重识别任务中,我们也使用双流架构测试了AGW的性能。
没有得到充分研究的开放问题
不可控的数据收集
大多数现有的Re-ID作品都在定义明确的数据收集环境中评估其方法。但是,实际复杂环境中的数据收集是不可控制的。数据可能是从不可预测的模态,模态组合甚至是换衣服的数据中捕获的。
多模态数据在实际应用中,Re-ID数据可能是从多种异构模式中捕获的,即人像的分辨率差异很大、查询集和gallery都可能包含不同的模式(可见,热,深度或文字说明)。
更换衣服的数据在实际的监视系统中,很可能会包含大量目标的更衣者。
减少人工标注依赖
人机交互的主动学习,从虚拟数据中进行学习。
特定领域/通用架构设计
特定于Re-ID的体系结构,现有的Re-ID方法通常采用为图像分类设计的架构作为骨干,一些方法修改架构以实现更好的Re-ID特性。
领域通用化的Re-ID,众所周知,不同的数据集之间存在较大的领域差距,大多数现有的方法采用域自适应进行跨数据集训练,一个更实用的解决方案是使用大量的源数据集学习一个域广义模型,这样学习的模型就可以被推广到新的不可见的数据集,无需额外的训练就可以进行区分性的重新识别。
动态模型更新
固定模型不适用于实际的动态更新的监视系统。为了缓解此问题,必须进行动态模型更新,无论是使用新的域/相机还是使用新收集的数据进行调整。
模型自适应新领域/相机,如何以小的代价将学习好的网络模型微调至新摄像头场景中;使用新数据更新模型,如何高效的利用新采集的数据(Newly Arriving Data)来更新之前已训练好的模型。
高效的模型部署
快速的Re-ID,轻量级的模型,Resource Aware Re-ID(自适应的针对不同类型的硬件配置(小型的移动手机和大型服务器)调整模型)。
补充
A.单模态图片Re-ID实验
**结构设计.**整个AGW的结构图已经给出:
我们采用ImageNet上预训练的ResNet50作为骨干网络,将全连接层的维数改变为与训练数据集中的身份数一致。backbone最后一次空间下采样操作的步长由2改为1。因此,当输入分辨率为256×128的图像时,输出特征图的空间大小将从8×4更改为16×8。在我们的方法中,我们将原始ResNet50中的全局平均池化替换为广义平均(GeM)池化。超参数 p k p_k pk初始化为3.0。在GeM池化层和完全连接的层之间插入了一个名为BNNeck的BatchNorm层。GeM池层的输出在训练阶段用于计算中心损失和三重态损失,而BNNeck之后的特征用于在测试推理阶段计算行人图像之间的距离。
**Non-local Attention.**ResNet包含4个残差阶段,即conv2x,conv3x,conv4x和conv5x,每个阶段都包含bottleneck块的堆叠。我们分别在conv3_3、conv3_4、conv4_4、conv4_5和conv4_6之后插入了5个非局部block。我们在实验中采用了点积版本的非局部block,bottleneck为512通道。对于每个非局部block,在表示Wz的最后一个线性层后面立即添加一个BatchNorm层。此BatchNormlayer的仿射参数初始化为零,以确保可以将非局部块插入到任何经过预训练的网络中,同时保持其初始表现。
**训练策略.**在训练阶段,我们随机抽样16个ID和每个ID的4张图像,以形成大小为64的微型batch。每张图像的大小调整为256×128像素,再填充10个像素为零值,然后随机裁剪为256×128。分别采用0.5水平概率的随机水平翻转和随机擦除进行数据增强。
**训练Loss.**用三个loss函数联合进行训练,
L
t
o
t
a
l
=
L
i
d
+
β
1
L
c
l
+
β
2
L
w
r
l
\mathcal{L}_{total}=\mathcal{L}_{id}+\beta_1\mathcal{L}_{cl}+\beta_2\mathcal{L}_{wrl}
Ltotal=Lid+β1Lcl+β2Lwrl
其中
β
1
\beta_1
β1取0.0005,
β
2
\beta_2
β2取1.0。
采用标签平滑来改善原始ID分类的损失,这会鼓励模型在训练过程中信心不足,并防止分类任务过度拟合。具体地,
q
i
=
{
1
−
N
−
1
N
ε
,
i
f
i
=
y
ε
N
,
o
t
h
e
r
w
i
s
e
q_i=\left \{\begin{array}{rcl}1-\frac{N-1}{N}\varepsilon, & if \quad i=y \\\frac{\varepsilon}{N}, & otherwise \end{array} \right.
qi={1−NN−1ε,Nε,ifi=yotherwise
N是ID的数目,
ε
\varepsilon
ε是一个小数字去降低对真实ID标签y的置信度,
q
i
q_i
qi被作为训练的新分类目标。(
ε
\varepsilon
ε设为0.1)
**Optimizer Setting.**采用weight decay0.0005的Adam优化器对模型进行训练。初始学习率设为0.00035,在第40thepoch和第70 epoch分别降低0.1。该模型总共训练了120个epochs。此外,我们还采用了预热学习率的方法来提高训练过程的稳定性并引导网络来提高性能(具体见论文)。
B.单模态视频Re-ID实验
**实施细节.**通过对基于单模态图像的Re-ID模型的骨干结构和训练策略进行一些细微更改,我们将我们提出的AGW基线扩展到基于视频的Re-ID模型。基于视频的AGWbaseline将视频序列作为输入,并提取帧级特征向量,然后将其平均化为BNNecklayer之前的视频级特征向量。此外,基于视频的AGW基线总共训练了400个epochs,以更好地适应视频的Re-ID数据集。每100个epochs学习率下降10倍。还有一些具体的采样等操作参见论文。
**细节比较.**主要与SOTA方法对比了一下
主要就是AGW作为baseline在各个数据集上的表现都挺不错。
C.跨模态Re-ID实验
**结构设计.**我们采用了一种双流网络结构作为跨模态可见红外Re-ID的backbone。与单模态的相比,主要不同点在于:第一个block专门用于两种模式,以便捕捉特定于模态的信息;剩下的那个block是共享的,用来学习模态中的共同特征。(意思应该就是一个模块学不同的模态特征信息,一个模块用来学模态之间相同的信息且是共享的)
关于训练策略、训练loss等具体细节见论文。
与SOTA方法比较:
有遮挡的Re-ID
有遮挡Re-ID AGWbaseline模型的总体backbone结构和训练策略与基于单模态图像的Re-ID模型相同。
和SOTA方法对比:
其他
有遮挡Re-ID AGWbaseline模型的总体backbone结构和训练策略与基于单模态图像的Re-ID模型相同。