《A Novel Unsupervised Camera-aware Domain Adaptation Framework for Person Re-identification》论文笔记


作者:Lei Qi, Lei Wang, Jing Huo, Luping Zhou, Yinghuan Shi, Yang Gao
原文: link.

Motivation

无监督跨域行人re-id面临两个问题,1)源目标域数据分布不同;2)目标域缺少标签信息。在本文中,第一个问题:将每个相机视为一个单独的域(子域),开发“camera-aware”域适应,不仅减少源域和目标域之间的差异,而且减少这些子域之间的差异;第二问题:利用目标域中每个摄像机的时间连续性来创建有区别的信息,这是通过在每个batch中动态在线生成triplet来实现的,以最大限度地利用训练过程中不断改进的特征表示。

Related Work

当前无监督跨域行人re-id主要研究两个问题:减少两个域之间的数据分布差异和为目标域生成判别信息。但是,在为目标域生成鉴别信息时,目前多数方法并没有利用每个相机图像的时间连续性,并且信息的生成通常是offline和单独进行的,而不是在训练期间动态进行的。此外许多方法减少域之间的数据分布差异是通过图像生产,而不是学习更好的表示。

Method

Framework由三部分组成:
1) 源域中标注图像的分类;
2) 通过对抗性学习的相机感知域适应;
3) 目标域强制执行判别信息。

Camera-aware domain adaptation

仅仅减少源域和目标域的总体差异并不能有效地处理相机级差异,这可能会对学习特征表示的质量产生不利影响,提出了相机自适应对抗学习(camera-aware adversarial learning, CAL),将不同相机的图像映射到一个子空间中。令Xs和Xt表示源域和目标域的训练图像,X=[Xs,Xt]。X中图像的相机ID表示为Yc。Cs和Ct表示源域和目标域的相机数量,C=Cs+Ct。对抗学习涉及鉴别器和生产器的优化,通过定义在源和目标域中的C个相机类的交叉熵损失来优化鉴别器
在这里插入图片描述
在这里插入图片描述
生成器是backbone网络B,由于处理多相机类,优化B变得复杂。首先利用gradient reversal layer (GRL)技术,由于其具有局限性,又提出了cross-domain camera equiprobability” (CCE)。
GRL:
GRL减小分布差异是通过最大化域鉴别损失(等式1), 直接将GRL扩展到该任务,可以优化生成器B
在这里插入图片描述
GRL有一个缺点,GRL减小分布差异是通过最大化域鉴别损失,但这导致图像无法分类为其真实相机类别。

CCE:
我们强制执行“优先误分类模式”,以最大程度地减小鉴别器的损失。我们要求在学习特征表示的情况下,源域中摄像机类的图像被等概率错误地分类为目标域中的摄像机类,反之亦然。该方案有效地避免了在GRL方案中存在的对同一域的相机类进行误分类的问题,并做出特定的努力将源域和目标域拉近。
在这里插入图片描述
令S和T表示源域和目标域,图片x的CCE损失表示为:
在这里插入图片描述
在这里插入图片描述
这时训练生产器B的优化可以定义为
在这里插入图片描述
在对抗训练时,D和B交替训练,每次迭代包含两步:1)临时固定B的权重,由式(1)训练D,预测每张图像的相机ID;2)临时固定D的权重, 通过式(4)训练B学习特征表示。重复训练直到收敛。
为什么更喜欢CCE,而不是简单地要求将每个摄像机类别中的图像等概率地误分类为所有其他(Cs +Ct-1)摄像机类别?这是因为在行人重识别时,跨域的差异通常比域内的差异更显著,对性能的影响也更大,CCE准则通过加强相机的跨域等概率性,使得降低相机的差异具有更高的优先级,是一种更好的选择。
CCE的理论分析:
令S和T表示源域和目标域,xs和xt是来自两个域的图像,ps (x)和pt (x)是他们的概率密度函数,Cs和Ct是两个域的相机类数。令p(x|Cis)和p(x|Cit) 分别为第i个相机类在源域和目标域的类条件密度函数。在理想情况下,尽量减小CCE损失将导致
在这里插入图片描述

  1. 对于源域中的图像,在目标域内不会感觉到Ct相机类之间的差异。对于这些相机类,它的类条件密度函数值(如p(xs |Cit))正好等于它在自己域中的密度函数值(如ps (xs))。上述结论同样适用于目标域内的任何图像。
  2. 源域和目标域(ps (x)和pt (x))的数据分布将变得相同,可以消除整个跨域分布的差异。

Unsupervised online triplet generation

生成triplet时不仅考虑图像间的距离,也联合利用图像之间的时间信息。给定目标域中的一个相机,其拍摄的所有照片按时间排成一个列表,随机选择p个不重叠的片段,每个片段包含q张图片,则batch由n=p*q组成,n个图片中的每一个都被用作一个anchor图片来依次创建triplet。对于n张图片,计算成对距离矩阵M∈Rn×n, 对于anchor图片Ia,根据M按与Ia距离递增排序一个batch中剩下的n-1张图片,列表记为S(Ia)。接下来选择正对和负对:
正对满足的条件:1)位于S(Ia)的top-k位置,2)与Ia来自同一片段。
正对的数量为kp,注意kp可以是零,这意味着这个anchor不能根据上面的规则找到任正对图像。在这种情况下,将不考虑此anchor。
负对满足的条件:1)I与Ia来自不同的片段,2)I所在的片段之前没有图片被选择为负对。负对的数量为kn
当在一个batch中创建triplet后,通过triplet损失训练backbone网络:
在这里插入图片描述
在这里插入图片描述
使用平均距离有利于减轻选择了错误的正对和负对的不利影响,使用re-rnaking算法来提升M。
在这里插入图片描述

Overall Loss

框架由源-目标域中相机间的对抗任务、目标域的鉴别任务、源域的分类任务组成。最终损失写为:
在这里插入图片描述
在这里插入图片描述

Experiments

参数设置

ResNet50作为backbone网络,GAP来获得2048-dim特征表示。
训练CAL:从每个源域和目标域中随机选择64张图像,从源域的选择的64张图片也用于训练分类任务,为了生成triplet,设置p和q分别为12和10,k和kn设为5和2。Triplet的margin m 设置为0.3,公式7的λ12=1。使用SGD优化器训练100个epoch, ResNet50的base layer学习率设置为0.1,new layer的学习率为0.01,当训练80个epoch后,学习率除以10,图像的尺寸为256*128。

与SOTA对比

在这里插入图片描述
在这里插入图片描述

On the effectiveness of CAL and UOT

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的多源域自适应是指在没有访问源数据的情况下进行的域自适应方法。为了解释这一概念,首先需要了解两个关键术语的含义:域自适应和多源。 域自适应是指在机器学习和数据挖掘中,将模型从一个域(即数据的分布)迁移到另一个域的过程。域自适应的目标是使模型在目标域上具有更好的性能,而不需要重新训练或收集目标域的数据。 多源是指使用来自多个源领域的数据来进行域自适应。这种情况下,我们有多个源域的数据,但没有目标域的数据。这可能是因为目标域的数据很难收集、昂贵或没有权限访问。 在无监督的多源域自适应中,我们试图使用多个源域的数据来进行迁移学习,从而在没有目标域数据的情况下提高目标域上的性能。这个问题是非常具有挑战性的,因为我们没有标签的目标域数据来指导模型的训练。 一种常见的方法是使用领域间的分布差异来进行特征学习。例如,可以使用深度神经网络来学习源域和目标域之间的有用特征。通过最小化源域和目标域之间的距离,我们可以使网络学习到一组在多个域上通用的特征表示。 另一个方法是使用领域适应的损失函数。这种损失函数通过最大化源域和目标域之间的相似性,或最小化它们之间的差异,来迫使模型在目标域上有更好的性能。 总的来说,无监督的多源域自适应是一种在没有目标域数据的情况下使用多个源域数据进行迁移学习的方法。它可以通过学习通用特征或使用领域适应的损失函数来提高目标域上的性能。这种方法对于许多现实世界的情况是非常有用的,例如在医疗图像诊断和自然语言处理等领域中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值