Learning Resolution-Invariant Deep Representations for Person Re-Identification
学习分辨率不变的的深度表示用于行人重识别RAIN
解决的问题
现实场景查询图像可能会出现分辨率丢失的问题,这篇文章就是解决行人重识别中分辨率不匹配的问题。
论文创新点
提出新的网络结构解决跨分辨率的行人重识别,替代原有的应用图像超分辨率模型。提出对抗学习策略,提取分辨率不变的重识别表示,类似于自动编码器的结构,保留图像的标识能力。同时以端到端的训练方式学习模型。(GAN和自动编码器)不仅允许以不可见的分辨率进行LR查询,而且可以扩展到解决半监督环境下的跨分辨率重标识。
利用图像标签,分类组件进一步利用区分属性重新标识。
论文中提到:该方法可以促进其他计算机视觉任务:语义匹配,对象共分割和域自适应问题。
以前的方法:使用SR(super-resolution)方法对LR图像上采样合成HR图像。不能保证合成的HR输出性能令人满意,若SR模型看不到输入图像分辨率,则不能正确恢复HR输出。
- 提出端到端的可训练网络,学习分辨率不变的深度表示用于交叉分辨率的深度表示。
- 模型中的优越的多级对抗性网络组件有效地跨分辨率对齐和提取特征表示。
- 证明模型再处理低分辨率查询输入的一系列分辨率方面的稳健性,标准SR模型需要在特定分辨率图像上训练
论文思路
意思是,查询图像的分辨率可能会很低,图库里面的图像分辨率一般会很高。
实验结果
数据集和配置
-
MLR-CUHK03:5个摄像头,1467个人,14000+图像。对于每个相机对,通过下采样 r ∈ { 2 , 3 , 4 } r \in \{2,3,4\} r∈{2,3,4},即下采样图像大小将为 H r × W r × 3 \frac H r \times \frac W r \times 3 rH×rW×3,另一个相机分辨率保持不变
-
MLR-VIPeR:两个相机,632个person-image pairs。和上述一样,使用下采样速率r对摄像机捕获的视图进行下采样。
-
CAVIAR:真正的LR行人再识别数据集。两个摄像头,72个人特征,1220幅图像。不使用22个只出现在近距离镜头的人。数据集更真实。
跨模态的行人重识别中查询集包含低分辨率图像,图库集只包含高分辨率图像。1,3数据集分为训练集和测试集,第一个数据集分为训练集测试集1367/100.测试集由每个人身份的低分辨率图像组成,图库集合随机选择一个特征的HR图像。
使用平均CMC报告rank-1,5,10,20的结果。并且使用多级鉴别器适应不同特征级别的分布。
结果分析

在MLR-CUHK03数据集上的分析:模型执行跨分辨率人员重标识以端到端的学习方式进行训练;不会受到visual artifacts的影响,因为没有使用SR的模型。这两个原因导致效果能比其他方法好。
baseline的两行表明:只在高分辨率情况下进行评估,分辨率不匹配的问题会显著改变性能。此外,即使模型用多个分辨率的图像训练,没有跨分辨率的对齐图像特征,分辨率不匹配的问题也间接的改变了性能。
MLR-VIPeR:大多数现有的发给发可能无法正确处理SR模型看不到的图像分辨率,或需要融合多个学习模型(这些模型都是针对特定分辨率专门设计)产生结果。
若训练集(1,2,3,4)和测试集(2,3,4)的采样速率不一样,模型可以执行不同分辨率的交叉解析,但是若训练集(1,2,3,4)和测试集(8),这些图像在训练期间是看不到的,所提出的模型工作正常并且可靠的执行跨分辨率行人重识别取得满意的结果。这种方法用于其他模型则得不到很好的结果。

CAVIAR:效果可见表1.
消融实验
损失函数
在MLR-CUHK03使用多级判别器,表3说明了消融研究:

该模型收到分辨率不匹配问题的严重影响。消融实验表明,所有损失项在实现最先进性能方面都起着至关重要的作用。
表4表示在不同下采样速率组合的数据集上的实验,第三行表示本文的模型有效的解决了不可见的分辨率的情况。
跨分辨率特征向量的可视化

不同的身份用不同的颜色表示,说明足够的可重构性模型可以很好的表现出来。
可视化表明模型学习分辨率不变的表示,并能够很好的应用到未见过的图像分辨率(rate=8),用于跨分辨率的行人重识别。
和两个baseline做对比,图4能看出模型的效果能比其他效果好一些。
半监督的跨分辨率行人重识别:

模型原理
符号表示
假设有一组大小为N的高分辨率图像 X H = { x i H } i = 1 N X_H = \{x^H_i\}^N_{i=1} XH={xiH}i=1N,其标签为 Y H = { y i H } i = 1 N Y_H=\{y^H_i\}^N_{i=1} YH={yiH}i=1N。 x i H ∈ R H × W × 3 , y i H ∈ R x^H_i \in \mathbb R^{H \times W \times 3},y^H_i \in \mathbf R xiH∈RH×W×3,yiH∈R代表第i个高分辨率图像及其对应的身份标签。
对每个高分辨率图像进行下采样得到低分辨率图像 X L = { x i L } i = 1 N X_L = \{x^L_i\}^N_{i=1} XL={xiL}i=1N,然后通过双线性上采样调 x i H ∈ R H × W × 3 x^H_i \in \mathbb R^{H \times W \times 3} xiH∈RH×W×3整回原始大小。
RAIN从训练HR到LR图像中学习分辨率不变的表示。
网络架构
分辨率自适应和再识别网络RAIN(Resolution Adaptation and re-Identification),包括:
- 跨分辨率特征提取器:对不同分辨率的图像进行编码并为图像恢复进而行人重识别产生图像特征
- 高分辨率解码器:将编码的交叉分辨率特征重构为高分辨率输出
- 鉴别器D:通过对抗性学习来跨分辨率对齐图像特征,从而加强分辨率变化特征的学习
- 重识别分类器C:通过分类和三元组损失学习模型

跨分辨率特征提取器
给定 HR image x H ∈ X H x_H \in X_H xH∈XH and LR image x L ∈ X L x_L \in X_L xL∈XL.首先通过ResNet50作为交叉分辨率特征提取器获取其特征图,ResNet50有5个残差块,将从每个残差块的最后一个激活层提取的特征图表示为 { f 1 , f 2 , f 3 , f 4 , f 5 } , f j ∈ R h × w × d \{f_1,f_2,f_3,f_4,f_5\},f_j \in \mathbf R^{h\times w\times d} {f1,f2,f3,f4,f5},fj∈Rh×w×d,d为通道数。
引入对抗学习策略,引入鉴别器 D j \mathcal D_j Dj,它将 f j H , f j L f^H_j,f^L_j fjH,fjL作为输入,并区分特征图是来自低分辨率或高分辨率。 j ∈ { 1 , 2 , 3 , 4 , 5 } j \in \{1,2,3,4,5\} j∈{1,2,3,4,5}表示特征图的索引, f j H , f j L f^H_j,f^L_j fjH,fjL分别表示 x H , x L x_H,x_L xH,xL的特征图。
训练有交叉分辨率的输入图像
x
H
,
x
L
x_H,x_L
xH,xL的交叉分辨率特征提取器和鉴别器,可以将对抗性损失定义为:
L
a
d
v
D
j
(
X
H
,
X
L
;
F
,
D
j
)
=
E
x
H
∼
X
H
[
log
(
D
j
(
f
j
H
)
)
]
+
E
x
L
∼
X
L
[
log
(
1
−
D
j
(
f
j
L
)
)
]
\mathcal L^{D_j}_{adv}(X_H,X_L;\mathcal F,\mathcal D_j)=\mathbb E_{x_H \sim X_H}[\log(D_j(f^H_j))] + \mathbb E_{x_L \sim X_L}[\log(1-D_j(f^L_j))]
LadvDj(XH,XL;F,Dj)=ExH∼XH[log(Dj(fjH))]+ExL∼XL[log(1−Dj(fjL))]
高分辨率解码器
高分辨率解码器从分辨率特征提取器提取特征图
f
5
f_5
f5作为输入。已存在的解码器是在给定观察到的潜在特征情况下恢复原始图像。本文的方法使用上一步的输出特征重建HR图像。这将会允许F提取跨分辨率特征同时解码器专注于合成高分辨率图像。在高分辨率加码器的输出和响应的高分辨率真实值图像之间设置一个重构损失:
L
r
e
c
(
X
H
,
X
L
;
F
,
G
)
=
E
x
H
∼
X
H
[
∣
∣
G
(
f
5
H
)
−
x
H
∣
∣
1
]
+
E
x
L
∼
X
L
[
∣
∣
G
(
f
5
L
)
−
x
L
∣
∣
1
]
\mathcal L_{rec}(X_H,X_L;\mathcal F,\mathcal G) = \mathbb E_{x_H \sim X_H}[||\mathcal G(f^H_5)-x_H||_1] + \mathbb E_{x_L \sim X_L}[||\mathcal G(f^L_5)-x_L||_1]
Lrec(XH,XL;F,G)=ExH∼XH[∣∣G(f5H)−xH∣∣1]+ExL∼XL[∣∣G(f5L)−xL∣∣1]
使用1范数来计算重构损失,因为它可以保持图像的清晰度。
Re-ID分类器
此分类器是来自特征图
f
5
f_5
f5上的全局平均池化GAP层的特征向量v,
v
=
G
A
P
(
f
5
)
,
v
∈
R
d
v = GAP(f_5),v\in \mathbb R^d
v=GAP(f5),v∈Rd。将人的特征作为gt信息,可以计算与预测标签的负对数似然
y
ˉ
=
C
(
v
)
∈
R
K
\bar y= \mathcal C(v) \in \mathbb R^K
yˉ=C(v)∈RK和真实值的one-hot向量
y
^
∈
R
K
\hat y \in \mathbb R^K
y^∈RK。定义分类损失如下:
L
c
l
s
(
X
H
,
X
L
;
F
,
C
)
=
−
E
(
x
H
,
y
H
)
∼
(
X
H
,
Y
H
)
∑
k
=
1
K
y
^
k
H
log
(
y
^
K
H
)
=
−
E
(
x
L
,
y
L
)
∼
(
X
L
Y
L
)
∑
k
=
1
K
y
^
k
L
log
(
y
^
K
L
)
\mathcal L_{cls}(X_H,X_L;\mathcal F,\mathcal C)=-\mathbb E_{(x_H,y_H)\sim (X_H,Y_H)}\sum^K_{k=1}\hat y^H_k \log(\hat y^H_K) \\ =-\mathbb E_{(x_L,y_L)\sim (X_LY_L)}\sum^K_{k=1}\hat y^L_k \log(\hat y^L_K)
Lcls(XH,XL;F,C)=−E(xH,yH)∼(XH,YH)k=1∑Ky^kHlog(y^KH)=−E(xL,yL)∼(XLYL)k=1∑Ky^kLlog(y^KL)
K是特征的个数。加权的分类损失也可以用来提高身份分类性能
为了增强区分性,本文引入三重损失,作用是最大化类间差异同时最小化类内差异。对于每个输入图像,对相同身份标签的正样本图像和具有不同身份标签的阜阳本土想进行采样形成三元组。
d
p
o
s
=
∣
∣
v
x
−
v
x
p
o
s
∣
∣
2
(
4
)
d
n
e
g
=
∣
∣
v
x
−
v
x
n
e
g
∣
∣
2
(
5
)
d_{pos} = ||v_x - v_{x_{pos}}||_2 ~~~(4)\\ d_{neg} = ||v_x - v_{x_{neg}}||_2 ~~~(5)
dpos=∣∣vx−vxpos∣∣2 (4)dneg=∣∣vx−vxneg∣∣2 (5)
v
x
,
v
x
p
o
s
,
v
x
n
e
g
v_x,v_{x_{pos}},v_{x_{neg}}
vx,vxpos,vxneg分别代表
x
,
x
p
o
s
,
x
n
e
g
x,x_{pos},x_{neg}
x,xpos,xneg的特征向量。这样三元组损失为:
L
t
r
i
(
X
H
,
X
L
;
F
,
C
)
=
E
(
x
H
,
y
H
)
∼
(
X
H
,
Y
H
)
max
(
0
,
m
+
d
p
o
s
H
−
d
n
e
g
H
)
+
E
(
x
L
,
y
L
)
∼
(
X
L
,
Y
L
)
max
(
0
,
m
+
d
p
o
s
L
−
d
n
e
g
L
)
(
6
)
\mathcal L_{tri}(X_H,X_L;\mathcal F,\mathcal C) = \mathbb E_{(x_H,y_H)\sim (X_H,Y_H)}\max (0,m+d^H_{pos}-d^H_{neg})\\ + \mathbb E_{(x_L,y_L)\sim (X_L,Y_L)}\max (0,m+d^L_{pos}-d^L_{neg}) ~~~(6)
Ltri(XH,XL;F,C)=E(xH,yH)∼(XH,YH)max(0,m+dposH−dnegH)+E(xL,yL)∼(XL,YL)max(0,m+dposL−dnegL) (6)
m代表三元组的正对和负对之间的距离边界。最小化上式中的三元组损失相当于最小化4中的类内差异同时最大化5中的类间差异。
总的损失
L ( X H , X L ; F , G , D i , C ) = L a d v D j ( X H , X L ; F , D j ) + L r e c ( X H , X L ; F , G ) + L c l s ( X H , X L ; F , C ) + L t r i ( X H , X L ; F , C ) \mathcal L(X_H,X_L;\mathcal F,\mathcal G,\mathcal D_i,\mathcal C) = \mathcal L^{D_j}_{adv}(X_H,X_L;\mathcal F,\mathcal D_j) + \mathcal L_{rec}(X_H,X_L;\mathcal F,\mathcal G)\\ + \mathcal L_{cls}(X_H,X_L;\mathcal F,\mathcal C) + \mathcal L_{tri}(X_H,X_L;\mathcal F,\mathcal C) L(XH,XL;F,G,Di,C)=LadvDj(XH,XL;F,Dj)+Lrec(XH,XL;F,G)+Lcls(XH,XL;F,C)+Ltri(XH,XL;F,C)
上述损失需要使用最小最大准则:
min
F
,
G
,
C
max
D
j
(
X
H
,
X
L
;
F
,
G
,
D
i
,
C
)
.
\min_{\mathcal F,\mathcal G,\mathcal C}\max_{\mathcal D_j}(X_H,X_L;\mathcal F,\mathcal G,\mathcal D_i,\mathcal C).
F,G,CminDjmax(XH,XL;F,G,Di,C).
使用训练的高分辨率图像和下采样的低分辨率图像训练我们的RAIN模型,已知分类损失三元组损失和高分辨率重构损失,同时匹配不同分辨率的特征表示。


被折叠的 条评论
为什么被折叠?



