《Invariance Matters:Exempla Memory for Domain Adaptive Person Re-identification》论文笔记


作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang
原文链接: link.
code: link.

Motivation

当前行人重识别面临三个问题:
1)源数据和目标数据集包含的行人(class)完全不同;
2)相机设置不同造成的图片差异不同;
3)仅考虑源域和目标域之间的整体domain gap,忽略了目标域的域内变化。

针对cross domain 行人重识别问题,目前的做法是在图像级和属性特征级上减小源和目标域的gap,但都忽略了目标域的域内变化,而目标域的域内变化是影响re-id性能的重要因素,基于以上,作者全面研究了目标域的域内变化,(前两个问题作者在HHL(异类同类学习)中已经提出了解决方法)并基于域内不变性提出了可行的模型泛化方法,引入了examplar memory 模块用以存储目标数据在训练过程中的中间特征。

具体地,作者将re-id模型概括为三种不变性,即:exemplar-invariance、camerain-variance、neighborhood-invariance。

  1. 样本不变性:强制将每个人的样本靠近自身并远离他人来学习未标记目标数据的外观相似性;
  2. 相机不变性:相机风格转换生成的图片应该仍然保持原始身份。因此在假设人物图像和相应相机的相机风格转换图像应该靠近彼此的情况下强制执行相机不变性。
  3. 邻域不变性:假设已经提供了在源域和目标域上训练好的re-id模型,目标域上的目标样本及其邻域可能共享相同的身份,考虑这一特性,将样本及其可靠地邻域彼此拉近来强制邻域不变性。
    在这里插入图片描述

Contributions

  1. 全面研究了提高re-ID模型的可泛化能力的目标域的三个基本不变性;
  2. 提出了一个examplar memory 模块来有效地将三个不变性属性强制执行到系统中,memory 有助于利用全局训练集上的样本相似性,仅 需额外少量的计算成本;
  3. 该方法在三个大型数据集上显著地超过了最先进的UDA方法。

Methed

下图是ECN的整体框架,训练期间,有标签的源数据和无标签的目标数据被喂到deep re-ID网络来获得最新特征表示,随后,设计两个组件来利用源数据和目标数据优化网络,第一个是分类模块,用于计算源数据的cross-entropy损失;第二个模块是样例记忆存储器,用于保存目标数据的最新特征并计算无标签目标数据的不变性学习损失。
在这里插入图片描述

Baseline

给定有标签源域{Xs,Ys},其包含Ns个行人图像,每一个行人xs,i对应一个身份ys,i,源域一共有M个身份。无标签目标域Xt包含Nt个行人图像,目标是同时利用标注的源域和无标注目标域来学习可迁移的deep re-id模型。
使用在ImageNet上预训练过的Resnet50作为网络 backbone,将resnet50网络保留到Pooling-5层作为base网络,并在pooling-50层之后添加4096维的全连接层(FC)新的FC层名为Fc-4096,后面接着是 batch normalization 、Relu、Dropout。
第一条支路仅使用有标签的源数据集,将其看成分类问题,使用交叉熵损失来优化第一条支路(源域损失):
在这里插入图片描述
将baseline仅在源域中训练和测试,识别精度很高,但将其在跨域测试时,精度急剧下降,引入目标域内三个不变性来解决这个模型泛化问题。

Exemplar Memory

Exemplar Memory模块是一个key-value结构,包含key memory(K)和value memory(V)。在Exemplar Memory模块中,key的每个槽存储 L2-normalized 的FC-4096特征,标签存储在value中。将每个目标图像视为一个类别,故有Nt个槽用于存储目标图像的特征和label。
Exemplar Memory模块主要是在反向传播是利用
在这里插入图片描述
更新key memory中的特征。

Exemplar-invariance

将Nt个目标图像视为Nt个不同类,并将每个图片分类为自己的类,给定目标图像xt,i,首先计算xt,i特征和存储在key memory中的特征的余弦相似度,然后用softmax函数计算目标图像xt,i属于类i的预测概率:
在这里插入图片描述
对应 loss 函数为:
在这里插入图片描述

Camera-invariance

将每个目标域相机视为一个风格域,采用StarGAN训练相机风格转换模型。将每个real图像和其风格迁移化的图像视为具有相同身份,相机不变损失可表示为:
在这里插入图片描述

Neighborhood-invariance

对于每个目标图像,目标数据中可能存在许多正样本。如果我们可以在训练的过程中利用这些正样本,我们就能够进一步提高模型在克服目标域变换方面的鲁棒性。为了实现这个目标,首先计算xt,i的特征f(xt,i)与存储在key memory K的特征之间的余弦相似性。然后在K中发现xt,i的k最近邻,定义他们的索引为M(xt,i,k)。设想目标图像xt,i是属于M(xt,i,k)的候选类来赋予邻域不变性到网络中。
其概率权重为:
在这里插入图片描述
Neighborhood-invariance的目标被表述为软标签损失:
在这里插入图片描述

目标域的总体不变性损失为:
在这里插入图片描述
Note that 当i=j时,使用Exemplar-invariance和Camera-invariance来优化网络,当i ≠j时,使用Neighborhood-invariance优化网络。
通过结合源域和目标域的损失,网络的最终损失表示为:
在这里插入图片描述
源域的损失旨在保持行人的基本表示,而目标域的损失旨在从有标签源域获取知识并目标域的不变性属性融合到网络中。

Discussion

Exemplar-invariance强制每一个样本远离其他样本,这对于不同身份来说扩大距离是好的,但是相同身份之间也会变得分离,这是有害的。相反,Neighborhood-invariance鼓励每一个样本和其邻居更靠近,这减少了Exemplar-invariance带来的相同身份之间距离变大。然而 Neighborhood-invariance也使不同身份靠的更近,因为不能保证每个邻居与query样本共享相同身份。因此,Exemplar-invariance和Neighborhood-invariance之间存在权衡。

Experiments

参数设置

Input image =256 *128;训练期间,采用随机翻转,随机裁剪,随机擦除作为数据增强;
dropout率为0.5;前40个epoch,使用0.01的学习率训练Resnet50的基础层,其余层的学习率为0.1。接下来20个epoch,学习率除以10;采用SGD优化器;
源和目标图像的mini batch设置为128;初始化key memory的α为0.01,随着epoch增加线性变大。设置temperature fact β为0.05;候选正样本数量k=6,损失函数的权重λ=0.3。
在前5个epoch,仅使用Exemplar-invariance和Camera-invariance损失训练网络,余下epoch添加Neighborhood-invariance损失。测试时,提取Pooling-5层的 L2-normalized 特征作为图像特征,采用欧式距离度量query和gallery之间的相似性。

不变性学习的消融实验

在这里插入图片描述

与SOTA对比

在这里插入图片描述
ECN 在 D–>M将 rank-1 和mAP 分别刷到 75.1 和43.0 ,但是作者已经在《Learning to Adapt Invariance in Memory for Person Re-identification》中在ECN的基础上融合基于GCN设计的GPP,将精度进一步刷到 rank-1 = 84.1 ,mAP = 63.8 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值