[行人重识别论文]Meta Pairwise Relationship Distillation for Unsupervised Person Re-identification

摘要:由于缺乏基本事实标签,无人监督人员重新识别 (Re-ID) 仍然具有挑战性。现有方法通常依赖于通过迭代聚类和分类来估计的伪标签,不幸的是,它们极易受到不准确的聚类估计数造成的性能损失。或者,我们提出了元成对关系蒸馏 (MPRD) 方法来估计无监督人员 Re-ID 的样本对的伪标签。具体来说,它由卷积神经网络(CNN)和图卷积网络(GCN)组成,其中GCN根据CNN提取的当前特征估计样本对的伪标签,CNN通过涉及GCN强加的高保真正负样本对来学习更好的特征。为了达到这个目的,使用少量标记样本来指导GCN训练,GCN可以提炼元知识来判断正负样本对之间邻域结构的差异。在 Market-1501、DukeMTMC-reID 和 MSMT17 数据集上的大量实验表明,我们的方法优于最先进的方法。

Figure1: 两种伪标签估计方法的图示,其中(a)传统方法直接采用成对相似度来估计伪标签,而(b)我们的方法采用成对邻域结构来估计伪标签。每个圆圈表示一个单独的图像。绿色圆圈表示与查询图像相同的身份,深色表示视觉相似度高,红色圆圈表示其他身份。

具体方法: CNN 和 GCN 以交替的方式进行训练,以迭代方式分别优化其每图像特征和成对伪标签。在每次迭代中,CNN 都会提取当前每个图像的特征,并通过它与先前特征的线性组合来更新特征内存。然后,根据视觉相似度量,通过将每个图像与其相邻图像连接起来来估计成对邻域结构。然后将生成的图形结构输入到 GCN 中,以推断样本对的伪标签。从经验上看,我们发现在没有任何监督的情况下训练GCN是非常困难的,因此,我们利用少量标记的原数据来显式监督GCN,这极大地帮助了它的鲁棒性。

Figure2: MPRD概述。初始化的骨干网提取训练镜像的特征。然后,GCN推断特征与其相邻特征之间的成对关系,用于训练CNN模型。

CNN:

       骨干网络:CNN模块提取判别特征,允许在特征空间中搜索最近邻。为简单起见,我们采用[8]中的骨干网络作为CNN选择*,它由特征提取模块和特征记忆模块组成。在实践中,特征提取模块F从每个输入图像习中提取一个d维特征F(习),然后由̃F(习)←F(习)/‖F(习)‖2归一化,‖F(习)‖2表示F(习)的范数,特征存储器M存储训练图像的所有特征。特征内存在第 t 次迭代时更新如下:

其中 γ(t) 表示与迭代相关的更新速率。这种特征记忆机制实际上实现了对迭代的平滑操作,从而可能减少特征中的剧烈振荡。

损失函数:假设GCN提供了成对伪标签,我们引入了二项式偏差(BD)损失[30]函数LF来训练CNN,旨在最小化正对的距离,最大化负对的距离:

其中 〈·, ·〉 表示内积,因为F(xi)和 M[j] 都是 '2 归一化单位向量,〈 F(xi),M[j]〉 表示它们之间的余弦相似度, ζ(x) = log(1 + ex), n 是批量大小, | · |表示基数(元素数),δ表示正对对对负对的重要性,λ1 和 λ2 表示两个边际参数,α 是一个放大因子。此外,Pi 和 Ni 分别表示正对列表和负对列表。作为 |镍| |圆周率|在实践中,我们进一步关注具有固定大小 r 的硬负对列表 N∗ i,如下所示。

其中 top(·, r) 表示 r 个最大样本。因此,N∗ i 包含嵌入特征空间中与查询习最接近的 r 个负样本。训练 CNN 后,所有正对都集中在 λ1 的半径内;而所有负对都位于距离至少为 λ2 的其他地方。之后,可以应用最近邻搜索算法来解决人员重新识别问题。

Figure: MPRD的成对邻域结构和训练策略的说明,其中红色箭头表示在t次迭代后训练CNN模型之前禁止执行,蓝线表示尚未判断对的关系,绿线表示该对被认为具有正标签,红线表示负标签.

GCN:

       骨干网络:GCN 估计样本对的伪标签,以便指导使用未标记数据的 CNN 训练。如图 2 (b) 所示,它采用成对邻域结构 Gij = (Aij, Vij) 作为输入,其中 Aij 表示相邻矩阵,Vij 表示节点嵌入。对于图像 习 和 NNk(习) = top(〈 ̃ M[i], ̃ M[j]〉, k) 中的每个图像 xj,可以通过将图像 习 和 xj 与其邻居连接来构建成对邻域结构。因此,Gij 的相邻矩阵可以定义如下:

其中 b ∈ {i, j} 表示提取的样本对 (习, xj) 中的图像索引。此外,Gij的节点嵌入可以通过以下两步实现。(1)我们使用双半径节点标记(DRNL)[32]在Gij中生成每个节点的位置嵌入,可以区分相对于样本对(习,xj)具有不同位置的节点。(2)将Gij中节点的位置嵌入和特征嵌入连接为Vij。我们的GCN的结构如图2(b)所示,它由两个图卷积层、一个图聚合层和一个多层感知层组成。特别是,多层感知(其参数表示为 Θm)包含两个全连接层,图聚合层(其参数表示为 Θa)包括一个最大池化层和一个一维卷积层。我们的图卷积层的递归函数是,

其中 Θg(l) 表示第 l 层的参数,D 表示 Gij 的拉普拉斯矩阵,σ表示 ReLU 为激活函数,Y(l) ij 表示第 l 层的节点级嵌入。在训练过程中,图卷积层从成对邻域结构中提取特征,图聚合层将节点级特征聚合到图级特征中,多层感知估计样本对的伪标签。

损失函数:我们的GCN将成对邻域结构作为输入,并输出xi和xj具有相同身份的可能性。令G表示GCN的映射函数,其参数为Θ G = { Θg ( 1 ),· · ·,Θg ( L ),Θa,Θm }。为了获得这个映射函数,我们应用二元交叉熵( Binary Cross Entropy,BCE )损失来监督训练过程:

式中:gij表示Gij的预测,n′为批次大小,Pi g为正样本集合,其中Pi g中的样本Gis有正样本对( xi , xs),Ni g为负样本。在实际应用中,我们通过两种方式获取Gij的标签来训练我们的GCN模型。

CNN标签更新:由于用于CNN训练的真实标签是不可用的,我们使用GCN来处理成对的伪标签。对于每个图像对( xi , xj),我们通过三个步骤构建GCN的成对邻域结构,如图3 ( a )所示:( 1 ) CNN提取当前特征' F ( xi );( 2 )记忆特征" M [ i ] "由Eq更新。( 1 );( 3 )通过将图像xi和NNk ( xi )中的图像xj与它们的邻居连接,得到成对邻域结构Gij。然后,Gij被输入到GCN中以预测成对标签gij。为了改进gij,我们随后应用二进制滤波来提高Pi的保真度,具体如下:

其中μ是一个预定义的似然阈值,保证了xi和xj具有相同的恒等式。同时,根据式( 1 )得到硬负样本列表N * i。( 3 ) 。

GCN标签更新:为了保证GCN生成的伪成对标记的质量,我们提出用少量的标记元数据Z = { zm } mM = 1生成初始的、精确的成对邻域结构,其中M是标记恒等式(我们设定M = 5 ,约占所有数据的0.5 %。标记数据被专门保留以跳转开始GCN训练,这些注释从未呈现给CNN训练。)的个数。

       具体训练过程:

              1. 在第一次迭代中,对于未标记训练集X中的每个xi,我们使用不同的数据增强

技术生成正对,包括随机高斯模糊和灰度转换,以获得其扰动图像x′i。我们假设像( xi , x′i)这样的对是正对。在随后的迭代中,Pi的基数逐渐增加。当| Pi | > 1时,我们首先从Pi中随机抽取一个样本xri .对于任意的xrj∈Pi,其中ri 6 = rj,我们给( xri , xrj)分配一个伪正对标号当且仅当xrj∈NNk ( xri ) 。同时,在第一次迭代中,我们随机绘制不同的图像以形成负对。在随后的迭代中,我们从| N※i |中随机选择| Pi |图像来生成负对。

2. 对于标注元数据集Z中的每一幅图像zi,我们随机抽取两幅相同身份的图像生成一个正对,两幅不同身份的图像生成一个负对。此外,X中的每一幅图像xj都可以与zi配对生成一个负对。

结果:

总结:在本文中,我们提出了MPRD方法来解决无监督的行人重识别任务。不同于以前的方法,通过迭代的方式来估计伪标签聚类或分类,我们的方法在训练阶段不需要确定聚类的数目。所提出的MPRD将无监督的判别性特征学习任务转化为成对关系估计问题。GCN是根据样本对的近邻图结构来估计样本对之间的成对关系。CNN根据这些估计的成对关系标签从输入图像中学习具有判别性的特征。在Market - 1501、DukeMTMC - reID和MSMT17数据集上的大量实验证明了所提方法在无监督行人重识别任务中的有效性。

本文内容来自论文:Meta Pairwise Relationship Distillation for Unsupervised Person Re-identification

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值