An Asymmetric Distance Model for Cross-View Feature Mapping in Person Reidentification

Chen Y C, Zheng W S, Lai J H, et al. An Asymmetric Distance Model for Cross-view Feature Mapping in Person Re-identification[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2016, PP(99):1-1.

摘要

         在非重叠相机视图中匹配相同身份的人物图像的人员重新识别成为交叉相机视图活动分析的重要组成部分。大多数(如果不是全部)行人再识别算法是基于外观特征设计的。然而,在动态的光照变化下,外观特征在非重叠相机视图中不稳定,并且这些算法假设通过探索稳健和不变特征或通过学习匹配距离可以很好地表示同一人的两个交叉视图图像。这种假设忽略了在具有不同相机特性和环境的不同相机视图下捕获图像的性质,因此,在不同视图下提取的特征之间大多存在大的差异。为了解决这个问题,我们制定了一个非对称距离模型,用于学习特定于摄像机的投影,以将每个视图的不匹配特征转换为一个公共空间,在该空间中提取跨视图空间的辨别特征。进一步引入了交叉视图一致性正则化来模拟不同摄像机视图的视图特定特征变换之间的相关性,这反映了它们的自然关系并且在避免过度拟合中起重要作用。还提出了核交叉视图判别分量分析。已经进行了大量实验以显示非对称距离建模对于行人再识别是重要的,其与交叉不相交视图匹配的关注相匹配,与六个公开可用数据集上的相关远程学习方法相比报告了优越的性能。

1、介绍

       如今,摄像机网络已广泛部署在机场,火车站和医院等公共基础设施中进行监视。由于经济问题,摄像机视图之间总是存在不重叠的区域。然后,挑战跟踪人员和非重叠摄像机网络上的活动预测。因此,当他/她再次出现在另一个摄像机视图中时,重新识别目标人物是至关重要的。这样的问题被称为行人重识别。然而,行人的外观会在摄像机视图中发生显著变化,因为环境和摄像机方向可能完全不同。有两个主要的特征差异问题:1)视角差异和2)行人方面的差异。视角差异是由环境变化引起的,例如照明和相机的白平衡,行人方面的差异是由行人自己造成的,例如背包或拉链夹克,以及显著的姿势变化[见图2(a)和(b)]。减轻非重叠相机视图中的外观变化包括:1)寻求有辨别力和鲁棒的图像描述符[2] - [4]; 2)学习可靠的距离/子空间模型[5] - [9]; 3)预处理模型,如直方图均衡[2],[3]和亮传递模型[10] - [12]。前两种方法隐含地假设可以选择一组不会发生显著变化的特征。然而,由于室内/室外照明和姿势变化,外观可能会发生很大变化。因此,来自不同相机视图的同一人的图像将看起来非常不同。尽管远程学习方法试图选择对这些变化具有鲁棒性的特征,但是大多数这些特征是基于外观提取的,尤其是颜色特征[13],其将在很大程度上受到照明或相机特性(例如,白平衡)的影响。然而,现有的使用远程学习进行行人重识别的方法都集中在对称建模上,即大多数都是基于任意两个样本之间的以下距离形式。

其中,半正定矩阵M被分解成对称建模本质上假设相同的特征变换应用于所有摄像机视图,这忽略了由在不同摄像机视图下捕获的图像的不同性质引起的特征差异。 由于视图和行人方面的差异导致非重叠相机视图中存在特征差异问题,因此现有距离/子空间学习方法中的常规单一投影矩阵学习[5] - [7],[16] - [21] 可以丢弃那些具有较大差异的特征,这些特征在交叉视图匹配期间可能具有区别性。 第III-A节将提供此分析的详细信息。

       在本文中,我们提出了一种用于行人重识别的非对称距离模型,即,我们概括了(1)中的对称形式,并通过考虑基于以下不对称形式的模型来考虑视图标签:

其中,p和q是两个不同摄像头视角下的标签,总有本质上讲,我们通过学习形成对称学习,我们称之为交叉视角变换。我们假设人们可以寻找一个潜在的共同空间,使得同一个人的不同摄像机视图中提取的特征变得更加相似,同时对于不同的人,它们变得更加不同。 基于这个假设,我们开发了一种有监督的非对称距离学习模型。 我们还观察到,尽管在不相交的摄像机视图中存在差异,但是由于存在相同的人匹配并且可能类似的室内/室外环境,因此在任何两个摄像机视图捕获的内容之间可能存在关系。因此,在特征转换之间的差异可以被控制。为此,我们在交叉视图模型中引入了交叉视图一致性正则化,以约束视图特定投影的差异,从而隐含地将交叉视图图像之间的关系嵌入到距离学习模型中。 基于以上思想,我们开发了一种新的人员重新识别的交叉视图匹配算法,称为交叉视图判别分量分析,如图1所示。

        总之,本文做出了以下贡献。

       1)我们提出并开发了一种新的非对称距离学习模型,称为CVDCA算法,将不同视图下的特征转换为行人重识别的公共空间。 所提出的方法通过视图特定映射来解决特征差异问题,并通过一致性正则化来模拟不同视图的相关性。我们还通过实验证明这种非对称距离模型比对称模型执行得更好。

     2)线性CVDCA进一步扩展到内核版本,然后提出核化CVDCA。

       已经进行了大量实验以证明所提出的CVDCA和核交叉视图判别成分分析(KCVDCA)可以更好地解决行人重识别中的特征差异问题。

2、近期工作

略....

3、方法

A 不同摄像头视角的特征差异

    让我们考虑一个一般情况:这有N(大于等于2)个摄像头存在有意义的特征差异。让代表从第k个摄像头得到的行人图像中提取的特征矩阵,其中d表示特征为数,是第k个摄像头的样本数。类内的均值变量及其下界两个特定视图(视图a和b)由下式给定

    

 其中,是所有在视图a和b中的正样本对的集合,且的基数。

         我们考虑一个single-shot的情况,比如,每一个行人在每个视角只有一张图像。然后可以被写为:

           假定是直方图特征。我们在图3的第一行和第二行画。我们注意到不相同,比如,一些特征是高度发散的。这些高度不同的特征(红色条状)将产生一个高注意到如果来自相同的分布,那么应该是相似的。因此,我们相信两个视角间如此高度不同的特征是由于不匹配分布造成的,这将导致特征差异问题。

          大多数有监督的子空间/度量学习方法尝试减少类内变量同时下边界将同样被减少。如果一种方法为所有的视角学习一个相同的映射或者距离矩阵,那么分散的特征权重将会趋于减少,因为这些特征往往会造成高类内变量。如图3的第6行显示,例如,使用LFDA,它学习两个视图的单一投影,因此高度发散特征的权重相对较小。 但是,这些功能可能包含一些可分辨的信息,并且不强调它们可能会导致性能下降。 由于对所有视图使用酉映射对于提取判别特征并不是最佳的,因此我们建议学习特定于摄像机视图的映射。学习摄像机视图特定映射以便将这些特征转换为公共空间。 如图3的第三和第四行所示,使用视图特定的映射,不必抑制高度发散特征上的权重,并且可以使用更多特征。 通过学习特定视图的变换,我们最终制定了一个称为CVDCA的非对称距离模型,用于在不相交的摄像机视图中匹配人物图像。

         为了进一步分析对称和非对称距离的辨别力,我们通过计算平均类间距离和平均类内距离之间的商来量化能力,这是基于CVDCA和LFDA产生的特征。 商定义如下:

其中,是投影特征,是视角a和b中的所有负样本对的集合,是正样本对集合。这里Q代表商。较大的Q值表示特征能被很好的分离,因此他们更加有辨别力。注意到通过CVDCA提取特征的Q值在RGB,HSV,YCbCr空间中分别为1.47,2.27和1.37,但是他们通过LDFA提取的值分别为1.10,1.07和115。因此,我们声称使用特定于视图的映射,可以保留更多的判别特征。另外,正如我们实验中显示的,所提出的方法并不排除使用这些特征并且实现比LFDA更好的性能。

B 通过特定视角变换将差异降低

      基于行人再识别的对称距离模型通过学习每个视角的特征变换被形成。令表示视角p的投影矩阵,其中是投影空间的维数。我们的目标是学习,将特征嵌入到一个有区别的欧几里德空间中,其中相关对预期具有较小的欧几里德距离,而无关对具有较大的欧几里德距离。

      期望所学习的潜在公共空间可以模拟交叉视图样本对和视图内样本对的关系。 因此,我们的模型包括跨视图建模和视图内建模:

    其中,交叉视角模型和视角内模型可以被下列形式形成并且是一个用来控制视角内模型的正值:

     在以上的建模中,是视角p,q间的样本对权重,且是视角p的投影。我们定义

        其中可以设置为像LFDA一样的一个局部权重形式或者简单地置为1,分别是正样本对和负样本对在视角p和q之间的数量,且是一个标量。由于正样本对的数量比负样本对的数量少很多,所以我们使用来归一化它们,因此类内模型和类间模型可以通过简单的进行建模。这样,最小化目标函数f将减少类间差异,同时它将扩大类内差异。当是以交叉视角的关系作为特征;当p=q时,它以视角内的关系作为特征。

        为了避免平凡解,也就是说,时,,我们还结合了一些约束,并制定一个优化问题:

其中,而且I表示身份矩阵可避免协方差矩阵的单一性。这些约束确保每个视角的投影特征有单位幅度,因此他们不会缩小到0.

C 交叉视角的变换约束

一致性正规化

        直观地,如果两个视图的特征分布相似,则学习特征变换也相似; 否则,学习的U p和U q将不同。 由于腐蚀的正样本对的特征是任意不同的,例如,穿着白色T恤和黑色背包的行人的正面视图和背视图(参见图2),它可以使学习的完全不同。 这些很大程度上不同的投影基础对不能捕获来自不同相机对的图像在一定程度上相关的自然属性,并且当使用这些投影对时性能会急剧下降。

        为了将这种相关性质嵌入到我们的模型中,我们建议惩罚那些大不相同的特征变换。具体来说,每个投影基础对的差异可以通过Bregman差异来衡量[46],[47]。假定一个严格凸函数投影对的Bregman差异为:

其中,的衍生物。对于任何严格凸函数

        的选择对于性能和计算复杂性是不重要的。如果我们设置Bregman差异可以被简化为一个欧式距离正如我们之后所显示的,这样的正则化术语导致了一个较好的解决方案,并且它在经验上很有效。对于所有的

摄像头对,被添加到目标函数(6)。我们称这种正规化为交叉视角一致性正规化。在附录中,我们将解释这个正则化项如何与投影矩阵的先验知识相关。

由于其中表示迹操作,我们形成(10)的一个正则化版本:

  

其中,

        这种跨视图一致性正则化对于利用特定于视图的特征转换之间的内在本质关系很重要,并且有助于显著地减轻过度拟合,如第IV-D1节中所评估的那样。 我们将上述模型称为CVDCA。

D. Kernel Extension 核拓展

       上述方法学习用于特征变换的线性投影矩阵,并且可能受到给定数据的非线性的影响。 我们进一步提出内核扩展来缓解这个问题。

       第k个视角的隐式高维子空间基可疑被表示为其中是所有训练数据的高维逐列特征矩阵。因此,投影数据可以被表示为,其中是核函数且是第k个视角的投影函数,n是训练样本的数量。

       将(14)代入(6),将替换为可以发现KCVDCA的损失函数和CVDCA的相似。

      使用再生内核Hilbert空间的再现属性,隐式高维空间中的正则化项可以表示为其中K是 gram matrices定义为

        总之,KCVDCA的优化问题可以描述为以下形式:

E. Closed-Form Solution

    为了证明目标函数的解,我们以线性情况为例,并且内核情况是相似的。

    优化问题(12)的目标函数可以被重写为:

其中,是一个对角矩阵,其对角线条目定义为:

       目标函数可以被进一步简化为:

其中,U是由N个视角的投影基组成的行级联矩阵且被定义为:

R被定义为:

其中,

注意到放宽约束是合理的因为放松的版本足以避免琐碎的复杂方案。因此,优化问题可以被修改为:

其中,M是块对角矩阵被定义为:

       优化问题(20)可以通过计算与下列广义特征组合问题的最小特征值相对应的c个特征向量来解决:

 其中,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值