《Invariance Matters：Exempla Memory for Domain Adaptive Person Re-identification》论文笔记

最新推荐文章于 2023-02-10 22:27:56 发布

ddingddong~

最新推荐文章于 2023-02-10 22:27:56 发布

阅读量839

点赞数

分类专栏： person Re-ID 文章标签： ECN person Re-ID 计算机视觉 deep learning

本文链接：https://blog.csdn.net/weixin_42643931/article/details/101075504

版权

person Re-ID 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

《Invariance Matters：Exempla Memory for Domain Adaptive Person Re-identification》论文笔记

Motivation
Contributions
Methed
Experiments

作者：Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang
原文链接： link.
code： link.

Motivation

当前行人重识别面临三个问题：
1）源数据和目标数据集包含的行人(class)完全不同；
2）相机设置不同造成的图片差异不同；
3）仅考虑源域和目标域之间的整体domain gap，忽略了目标域的域内变化。

针对cross domain 行人重识别问题，目前的做法是在图像级和属性特征级上减小源和目标域的gap，但都忽略了目标域的域内变化，而目标域的域内变化是影响re-id性能的重要因素，基于以上，作者全面研究了目标域的域内变化，（前两个问题作者在HHL(异类同类学习)中已经提出了解决方法）并基于域内不变性提出了可行的模型泛化方法，引入了examplar memory 模块用以存储目标数据在训练过程中的中间特征。

具体地，作者将re-id模型概括为三种不变性，即：exemplar-invariance、camerain-variance、neighborhood-invariance。

样本不变性：强制将每个人的样本靠近自身并远离他人来学习未标记目标数据的外观相似性；
相机不变性：相机风格转换生成的图片应该仍然保持原始身份。因此在假设人物图像和相应相机的相机风格转换图像应该靠近彼此的情况下强制执行相机不变性。
邻域不变性：假设已经提供了在源域和目标域上训练好的re-id模型，目标域上的目标样本及其邻域可能共享相同的身份，考虑这一特性，将样本及其可靠地邻域彼此拉近来强制邻域不变性。

Contributions

全面研究了提高re-ID模型的可泛化能力的目标域的三个基本不变性；
提出了一个examplar memory 模块来有效地将三个不变性属性强制执行到系统中，memory 有助于利用全局训练集上的样本相似性，仅需额外少量的计算成本；
该方法在三个大型数据集上显著地超过了最先进的UDA方法。

Methed

下图是ECN的整体框架，训练期间，有标签的源数据和无标签的目标数据被喂到deep re-ID网络来获得最新特征表示，随后，设计两个组件来利用源数据和目标数据优化网络，第一个是分类模块，用于计算源数据的cross-entropy损失；第二个模块是样例记忆存储器，用于保存目标数据的最新特征并计算无标签目标数据的不变性学习损失。
在这里插入图片描述

Baseline

给定有标签源域{X_s,Y_s}，其包含N_s个行人图像，每一个行人x_s,i对应一个身份y_s,i，源域一共有M个身份。无标签目标域X_t包含N_t个行人图像，目标是同时利用标注的源域和无标注目标域来学习可迁移的deep re-id模型。
使用在ImageNet上预训练过的Resnet50作为网络 backbone，将resnet50网络保留到Pooling-5层作为base网络，并在pooling-50层之后添加4096维的全连接层（FC）新的FC层名为Fc-4096,后面接着是 batch normalization 、Relu、Dropout。
第一条支路仅使用有标签的源数据集，将其看成分类问题，使用交叉熵损失来优化第一条支路(源域损失)：
在这里插入图片描述
将baseline仅在源域中训练和测试，识别精度很高，但将其在跨域测试时，精度急剧下降，引入目标域内三个不变性来解决这个模型泛化问题。

Exemplar Memory

Exemplar Memory模块是一个key-value结构，包含key memory(K)和value memory(V)。在Exemplar Memory模块中，key的每个槽存储 L2-normalized 的FC-4096特征，标签存储在value中。将每个目标图像视为一个类别，故有N_t个槽用于存储目标图像的特征和label。
Exemplar Memory模块主要是在反向传播是利用
在这里插入图片描述
更新key memory中的特征。

Exemplar-invariance

将N_t个目标图像视为N_t个不同类，并将每个图片分类为自己的类，给定目标图像x_t,i，首先计算x_t,i特征和存储在key memory中的特征的余弦相似度，然后用softmax函数计算目标图像x_t,i属于类i的预测概率：
在这里插入图片描述
对应 loss 函数为：

Camera-invariance

将每个目标域相机视为一个风格域，采用StarGAN训练相机风格转换模型。将每个real图像和其风格迁移化的图像视为具有相同身份，相机不变损失可表示为：
在这里插入图片描述

Neighborhood-invariance

对于每个目标图像，目标数据中可能存在许多正样本。如果我们可以在训练的过程中利用这些正样本，我们就能够进一步提高模型在克服目标域变换方面的鲁棒性。为了实现这个目标，首先计算x_t,i的特征f(x_t,i)与存储在key memory K的特征之间的余弦相似性。然后在K中发现x_t,i的k最近邻，定义他们的索引为M(x_t,i,k)。设想目标图像x_t,i是属于M(x_t,i,k)的候选类来赋予邻域不变性到网络中。
其概率权重为：
在这里插入图片描述
Neighborhood-invariance的目标被表述为软标签损失：

目标域的总体不变性损失为：
在这里插入图片描述
Note that 当i=j时，使用Exemplar-invariance和Camera-invariance来优化网络，当i ≠j时，使用Neighborhood-invariance优化网络。
通过结合源域和目标域的损失，网络的最终损失表示为：

源域的损失旨在保持行人的基本表示，而目标域的损失旨在从有标签源域获取知识并目标域的不变性属性融合到网络中。

Discussion

Exemplar-invariance强制每一个样本远离其他样本，这对于不同身份来说扩大距离是好的，但是相同身份之间也会变得分离，这是有害的。相反，Neighborhood-invariance鼓励每一个样本和其邻居更靠近，这减少了Exemplar-invariance带来的相同身份之间距离变大。然而 Neighborhood-invariance也使不同身份靠的更近，因为不能保证每个邻居与query样本共享相同身份。因此，Exemplar-invariance和Neighborhood-invariance之间存在权衡。

Experiments

参数设置

Input image =256 *128；训练期间，采用随机翻转，随机裁剪，随机擦除作为数据增强；
dropout率为0.5；前40个epoch,使用0.01的学习率训练Resnet50的基础层，其余层的学习率为0.1。接下来20个epoch,学习率除以10；采用SGD优化器；
源和目标图像的mini batch设置为128；初始化key memory的α为0.01，随着epoch增加线性变大。设置temperature fact β为0.05；候选正样本数量k=6，损失函数的权重λ=0.3。
在前5个epoch,仅使用Exemplar-invariance和Camera-invariance损失训练网络，余下epoch添加Neighborhood-invariance损失。测试时，提取Pooling-5层的 L2-normalized 特征作为图像特征，采用欧式距离度量query和gallery之间的相似性。

不变性学习的消融实验

在这里插入图片描述

与SOTA对比

在这里插入图片描述
ECN 在 D–>M将 rank-1 和mAP 分别刷到 75.1 和43.0 ，但是作者已经在《Learning to Adapt Invariance in Memory for Person Re-identiﬁcation》中在ECN的基础上融合基于GCN设计的GPP,将精度进一步刷到 rank-1 = 84.1 ，mAP = 63.8 。