文章目录
1 Abstract & Introduction
-
A novel domain adaptive attention model:(两个部分)
Domain-shared feature map(DSH)具有迁移性,用于辅助目标域上的重识别
Domain-specific feature map(DSP)用于消除由于域间差异引起的负迁移 -
A novel problem formulation of the domain adaptation task as one-class classification task is proposed with a domain similarity loss.
利用域间相似度损失,将域自适应问题看成一个单分类任务。 -
A novel unsupervised person Re-ID loss is proposed to the unlabeled target domain based on a clustering process and the weighted cross-entropy loss.
基于聚类过程和加权交叉熵损失,在无标签目标域上提出一种新的无监督行人重识别损失。
2 Related Works
3 Methodology
整个网络包括四个部分:a backbone network,a domain adaptive attention module,a domain-shared branch和a domain-specific branch。
backbone network选用ResNet-50。
3.1 Domain Adaptive Attention Module
任意图像x的特征映射Fx都可以被分成domain-shared discriminative feature map
F
x
s
h
F^{sh}_x
Fxsh和domain-specific feature map
F
x
s
p
F^{sp}_x
Fxsp,因此我们要学习一个domain-shared attention map
A
(
F
x
)
∈
(
0
,
1
)
h
∗
w
∗
c
A(F_x)\isin{(0,1)^{h*w*c}}
A(Fx)∈(0,1)h∗w∗c:
根据文献1,
A
(
F
x
)
A(F_x)
A(Fx)可以分解成空间注意力
S
(
F
x
)
∈
(
0
,
1
)
h
∗
w
∗
1
S(F_x)\isin{(0,1)^{h*w*1}}
S(Fx)∈(0,1)h∗w∗1和通道注意力
C
(
F
x
)
∈
(
0
,
1
)
1
∗
c
C(F_x)\isin{(0,1)^{1*c}}
C(Fx)∈(0,1)1∗c:
Spatial Attention Module
空间注意力模块的输入是特征映射
F
x
F_x
Fx,输出是空间注意力
S
(
F
x
)
S(F_x)
S(Fx),通过挖掘特征中所有通道共有的像之间的关系来得到。因此先对所有通道进行全局平均池化过程,再经过一个卷积层(
3
×
3
3\times3
3×3,stride
2
2
2)和上采样层,最后为了有效和通道信息结合,添加了一个卷积层(
1
×
1
1\times1
1×1)来自动学习一个adaptive scale。
Channel Attention Module
通道注意力模块的输入是特征映射
F
x
F_x
Fx,输出是空间注意力
C
(
F
x
)
C(F_x)
C(Fx),通过挖掘特征中通道之间的关系来获得。
3.2 Domain-Shared Branch
给定任意图像的
F
x
s
h
F^{sh}_x
Fxsh,DSH的作用就是提取一个能用于目标域上行人重识别的特征。通过Global Average Pooling,Batch Normalized和ReLU active之后,将
F
x
s
h
F^{sh}_x
Fxsh投影成一个256维的特征向量
f
x
s
h
f^{sh}_x
fxsh。为了使
f
x
s
h
f^{sh}_x
fxsh既具有在不同域上的可迁移性,又对不同行人具有判别性,引入两种损失:domain similarity loss和person re-ID loss。
Domain Similarity Loss
一个自然的思路是使得
f
x
s
h
f^{sh}_x
fxsh的分布在源域和目标域上相似。将源域和目标域中的图像投影到一个统一的新的nominal domain中,可以看成一个one-class classification(OCC)问题。
一个
256
×
1
256\times1
256×1的全连接层和激活层,用来预测图像
x
x
x属于新domain的概率
p
o
(
x
)
p^o(x)
po(x),domain similarity loss:
- OCC vs. GRL: GRL试图模糊域之间的差异,而OCC试图拉近两种域的分布。
- OCC vs. MDD: MDD要求源域和值域具有相同的类别标签,但re-id中源域和目标域上具有完全不同的行人标签。
Person Re-ID Loss
对于带标签的源域来说,和有监督学习一样采用交叉熵损失:
对于无标签的目标域来说,用在源域上训练好的模型对其提取特征后,用k平均聚类的方法为其打上弱标签:
采用加权交叉熵损失:
由于标签是估计的,不准确,越靠近聚类中心的样本标签具有更大的置信度,权重可由下式决定:
3.3 Domain-Specific Branch
该分支的主要目的是为了保证最后输出的特征
f
x
s
p
f^{sp}_x
fxsp对不同的域具有判别性,因此引入一个
256
×
2
256\times2
256×2的FC层和softmax function,用于预测任意图像
x
x
x属于源域或是目标域的概率
p
s
(
x
)
p^s(x)
ps(x)和
p
t
(
x
)
p^t(x)
pt(x)。
最后,为了保证
f
x
s
h
f^{sh}_x
fxsh和
f
x
s
p
f^{sp}_x
fxsp完全互斥且独立,使其具有软正交限制:
4 Learning
整个网络的总损失:
算法流程:
5 Experiments
和现有无监督域适应方法比较
Ablation Studies
(1) Effectives of network modules
验证网络各个模块的有效性
(2) Effectiveness of the proposed losses
-
验证用于拉近域间分布的损失 L D S L^{DS} LDS的有效性
与两种情况比较:一种是直接去掉 L D S L^{DS} LDS,一种是换成GRL方法。 -
验证目标域上加权交叉熵损失的有效性
将权重都设成1时,准确率大大降低。
(3) Influences of hyper-parameters -
迭代次数
均在五次以后达到收敛 -
聚类类别数K
在两个数据集上测试K=650时效果最好
Visualisation
domain-shared feature map更注重行人身体部位,而domain-specific feature map更注重背景和其他因素。
W. Li, X. Zhu, and S. Gong. Harmonious attention network for person re-identification. In CVPR, pages 2285–2294, 2018. 3 ↩︎