Multi Channel-Kernel Canonical Correlation Analysis for Cross-View Person Re-Identification

交叉视角行人重识别的多通道核典型相关分析

ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)  2017年5月5日出版

摘要

       在本文中,我们介绍了一种方法,以克服多摄像机网络中行人再识别的主要挑战之一,即交叉视图外观变化。 所提出的解决方案通过利用多个特征表示来解决在不同摄像机视图中人物外观的极端可变性。 对于每个特征,使用具有不同内核的核典型相关分析(KCCA)来学习几个投影空间,其中从不同相机观察到的同一人的样本之间的外观相关性被最大化。 最后使用迭代逻辑回归来选择和加权每个投影的贡献并执行两个视图之间的匹配。 实验评估表明,所提出的解决方案在VIPeR和PRID 450s数据集上获得了可比性能,并且相对于现有技术在PRID和CUHK01数据集上改进了表现。

1. INTRODUCTION

        视频监控系统现在在公共场所,如机场,火车站甚至城市无处不在。 这些系统通常以摄像机网络的形式实现并覆盖非常大的区域,在不同的摄像机视图之间具有有限的重叠或没有重叠。 他们应该能够在整个网络中跟踪一个人,在不同的摄像机视图中匹配同一个人的检测,而不管视图和照明的变化,以及行人的姿势和比例变化。 跨摄像机网络的匹配行人检测通常被称为行人再识别。

        在本文中,我们提出了一种行人再识别的解决方案,该解决方案基于通过多种表示来解决不同摄像机视图中人物外观的极端可变性的想法。 特别地,从人物图像的粗略分割中提取若干颜色和纹理特征以考虑视点和光照变化。 对于每个特征,我们学习了几个投影空间,其中在两个不同摄像机中观察到的同一行人的图像上计算的特征相关。 使用具有不同内核的Kernel Canonical Correlation Analysis(KCCA)来学习这些投影空间。 最后,通过应用迭代逻辑回归过程来匹配来自两个摄像头的图像,在每个投影空间中,该过程能够选择和加权计算距离的贡献。

 1.1. Related works       

      正如最近在[Bedagkar-Gala和Shah 2014]中研究的那样,行人再识别已经成为研究的一个活跃主题。 我们回顾以下最重要的工作。 文献中提出的方法可以分为四类:定义手工制作的行人描述符,基于深度学习的行人再识别,学习行人再识别识别的判别模型,以及学习行人再识别的共同空间。

      1.1.1. Hand-crafted person descriptors.   这些方法集中于描述符的定义,这些描述符能够尽可能多地捕获不同视图中人物外观的可变性。此类别中的方法通常依赖于图像区域的定义,该区域应对应于行人的不同身体部位。每个区域通常用颜色直方图或局部特征描述符的聚合编码。在这一类中性能最佳的提议中,对称驱动的局部特征累积(SDALF)描述符[Farenzena et al。 2010]考虑了从轴对称和不对称的计算以及背景建模获得的人体物理部位的图像片段,例如头部,躯干和腿部。对于每个片段,颜色信息由加权的HSV颜色直方图和最大稳定的颜色区域(MSCR)表示,并且纹理信息被编码为循环的高度结构化的补丁。在[Cheng et al。 2011年]同一作者提出在人体检测中拟合自定义图像结构(CPS)模型来估计头部,胸部,大腿和腿部位置。然后通过HSV颜色直方图和MSCR描述每个部分。

      [Doretto et al。2011]研究中讨论了文献中提出的许多基于描述符的方法。 此外,[Vezzani等人。 2013]回顾了大量关于行人再识别的研究,重点是基于2D和3D模型的方法。 然而,文献中的大多数基于描述符的方法依赖于基于部分的模型,并且虽然在理想的捕获条件下表现良好,但它们在实际场景中具有差的性能。 这是因为图像质量通常较低并且难以精确检测身体部位。

      1.1.2. Deep learning for person re-identification.  与手工制作的特征设计相反,一些作者利用深度卷积神经网络(CNN)来构建一种表示,捕捉跨越视图的人物外观的可变性。 本课程中首批重新识别工作之一是[Yi et al。2014A。 接着,在[Yi et al。 2014b],同一作者通过在“孪生”配置中采用CNN来共同学习统一框架(改进DML)中的颜色特征,纹理特征和距离函数来改进他们的解决方案。 艾哈迈德等人。 [Ahmed 等人。 2015]提出了一种孪生深度网络架构,类似于[Yi et al。 2014b],它共同学习特征表示,并以相同/不同的方式区分目标对(Siamese CNN),具有逻辑回归损失。 最后, Li等人。 [ Li等人。 2014]使用具有六层的新型滤波器配对神经网络(FPNN)来联合处理光度和几何变换。

     虽然深度学习对一般图像识别和最近的人脸识别产生了重大影响[Taigman et al。 [2014],但是用于行人再识别的深度网络表征的使用通常受到在行人再识别环境中出现的低分辨率图像的负面影响,并且需要来自不同相机的大量行人图像对的可用性以训练辨别模型。

      1.1.3. Learning discriminative models for person re-identification. 这类方法是最流行的,也是学习分类器和度量标准以便跨视图识别行人的思想。他们目前获得了行人再识别的最先进性能。在[Köstinger等人。 2012年]作者提出了一种马氏距离学习,它利用了源自目标标签(KISSME)的等效约束。 [Hirzer等人的作者。 2012a]提出了一种基于冒名顶替的度量学习方法(EIML),基于大边缘最近邻(LMNN)[Weinberger和Saul 2009]算法的修改版本。 [Xiong等人。 2014年]组合正则化成对约束分量,核心局部Fisher判别分析,边际Fisher分析和具有线性、内核的排序集合投票方案,广泛评估行人再识别性能(KLMM)。与[Xiong等人。2014]相似,[Wang et al。 2016]引入了原始特征空间的显式非线性变换,并通过最大化排名靠前的排名损失而不是由曲线下面积定义的损失来学习线性相似性投影矩阵(SLTRL)。由[Paisitkriangkrai等人。; Liu et al. 2015b].获得了显著的性能。 2015年;刘等人。 2015B。前者结合了不同距离度量学习方法的集合,最小化了不同的目标函数,而后者提出了一种新的集合模型(ECM),它通过度量学习结合了不同的颜色描述符。 [Liu et al。 2015a]提出了核心松弛边际成分分析(KRMCA)方法,该方法学习在训练期间利用真实的最近邻和冒名顶替者的度量。

      [Rui Zhao 2013;Zhao 2013,2014]主要依靠密集的对应和无监督的特征学习。在[Rui Zhao 2013]中,提出了一种新方法(eSDC),其应用邻接约束的补丁匹配,通过显着性学习方法以无监督的方式在图像对之间建立密集的对应关系。 [Zhao等人。 2013]通过惩罚具有不一致显著性的补丁来扩展这种方法,以便处理错位问题(SalMatch)。最后,Zhao等人不依赖于手工制作的功能。 [Zhao等人。 2014]建议学习中级过滤器(mFilters)。将密集补丁聚类在一起以创建分层树,然后使用树的节点内的补丁来训练区分两个视图的补丁的线性SVM。这里,mFilters由一组SVM权重和在节点上学习的偏差表示。不同于[Zhao等人  2014],[Shen et al。 2015]引入了一种编码交叉视图模式对应(CSL)的结构,该结构与全局约束一起使用以排除空间错位。

      [de Carvalho Prates and Schwartz 2015]中的方法使用来自探针和图库的显著样本来构建一组原型。这些原型用于通过使用偏最小二乘法(PLS)根据其辨别力对特征进行加权。通过融合不同的排名结果来执行最终识别。在[Yang et al。 2014年]作者提出使用颜色名编码颜色。特别地,融合不同颜色空间中的颜色名称上的颜色分布以生成最终特征表示(SCNCD)。该方法使用KISSME度量学习框架来执行匹配。这项工作[Shi et al。]建议通过利用语义属性来解决人员重新识别问题。主要的基本思想是属性可以为识别提供强大的不变提示。该模型不是依赖于手动标记的属性,而是在时尚摄影数据上进行训练。这些属性在超像素表示之上被学习为潜在变量。作者还将学习模型转移到视频监控设置,无需任何监控域监督。

     1.1.4. Learning a common space for person re-identification.  尽管重新识别中的关键问题是减轻对象在摄像机之间经历的强烈外观变化,但是只有很少的方法直接处理这个问题。尽管行人再识别的关键问题是减轻受试者穿过相机的强烈外观变化,但是只有很少的方法可以直接解决这个问题。 特别是,在[An et al。2013; Lisanti等人。2014; An等。2015年; An等。]中提出了通过学习共同特征空间来消除跨视图的外观变化来处理跨视图匹配的技术。【2016年 李和王2013; 廖等人。2015年】。这些方法最接近我们的方法,因为他们学习特征投影以更好地执行从不同相机捕获的同一人的图像之间的匹配。

       在[An et al。 2013年],作者是成功应用CCA(典型相关分析)行人再识别问题的第一人。特别是,它们在图库集和参考集之间离线应用正则化CCA。然后将探测器投射到相同的公共空间中并使用余弦相似性进行匹配。接着,在[Lisanti等人 2014年],作者将CCA扩展到其核心版本并获得了显著的成果。在[An et al。2015]具有协方差矩阵的稳健估计的线性CCA用于处理小训练集(ROCCA)。与常规CCA相比,该解决方案具有更高的准确性。同一作者在[An et al。 2016]为每个摄像机视图合并参考集,而不是仅将CCA应用于候选集。参考集是来自测试集的一组不相交的人,其被用作外部数据以比较探针和图库。在[Li and Wang 2013]中,作者提出使用交叉视图变换的相似性来将两个摄像机视图的图像空间划分为不同的配置。然后,将来自不同视图的图像对的视觉特征投影到共同特征空间中并与软分配的度量匹配。还学习了辨别度量以更好地区分对象。 [Liao et al。 2015]定义了LOMO特征,该特征由条纹上的HSV颜色直方图和纹理描述符组成,该纹理描述符是经典LBP的改进。他们的方法修改了KISSME度量学习[Köstinger等人。 2012]为了处理交叉视图匹配问题。最终提出的度量称为XQDA。

1.2. Contributions and Distinctive Features

        我们的方法基于文献[Prosser et al. 2010; Karaman and Bagdanov 2012; Lisanti et al. 2015; Karaman et al. 2014; Liao et al. 2015]中提出的许多人描述符,使用图像的粗略空间分割成不同高度的连续区域。 每个区域由多个特征表示,以捕捉人物外观的多样性。 我们的工作在很大程度上不同于普遍采用线性的广泛成果[Li and Wang 2013; Liao et al. 2015] 以及非线性度量学习 [Liu et al. 2015a]。 实际上,我们的方法的核心是通过非线性CCA为每个特征学习多个表示,而其他工作使用其线性版本 [An et al. 2013; An et al. 2015] 单一描述符。

       考虑到这一点,提出工作的两个主要新颖贡献如下:

      -------对于每个特征,我们学习一组具有不同内核的投影空间,以便来自不同相机的同一个人的图像更容易匹配。 这与[Li and Wang 2013; Lisanti et al. 2014; Liao et al. 2015] ,学习了一个投影空间,来自 [An et al. 2013; An et al. 2015] 基于线性CCA。

      -------我们基于逻辑回归推导出迭代选择过程,其中不太重要的特征被丢弃,并且区分特征对重新识别贡献更多。 这使我们能够在降低测试时的计算成本的同时提高行人再识别性能。  

       除了这些贡献,我们还公开发布我们的代码,以促进我们结果的再现性,并使研究者能够进一步发展我们的工作。

       在本文的其余部分,我们在Sect中阐述了我们的人物代表。 2,并详细讨论第3节和第4节中的方法。 在第5节中,我们比较了使用KCCA与多个内核进行行人再识别的性能,以及学习公共空间或使用度量学习的方法。 我们还概述了我们的方法在行人再识别方面的表现。 最后,我们展示了我们的解决方案中使用的每个特性和内核的贡献,我们对迭代选择过程给出了一些见解,并讨论了我们方法的计算成本。

2. PERSON REPRESENTATION

        为了考虑人物外观的空间分布,我们的表示模型考虑了四个组成部分:整个行人图像和粗分割成上,中,下区域。 从每个组件中提取颜色信息,并通过色调饱和度,RGB和Lab颜色空间中的直方图建模,以便考虑由于不同视点导致的光照差异。 还为每个组件提取纹理特征,并用HOG [Dalal和Triggs 2005]和局部二进制模式(LBP)直方图表示。 因此,对于每个组件,我们提取多个特征,即:HS p,RGB p,Lab p,HOG p,LBP p,其中后缀p代表全(f),上(u),中(m)和更低 (l)代表我们的表征组件。 稍后,我们将在一个组件中提取的特征作为通道,并将表示为通道集。

        特征提取过程如下,行人图像首先调整为126 * 64像素的分辨率。对于颜色特征,通过非各向同性高斯核对每个像素到每个直方图的贡献进行加权,以减少背景像素的影响,而不需要显式的背景分割。此外,对于每个组件考虑分成14个像素的重叠条带(参见图1)。对于一个组件,使用64个bins为每个条带计算每个颜色直方图,并跨条带连接。因此,HS f,RGB f和Lab f具有1088(17 * 64)的维度,而每个上,中和下区域的颜色特征具有320维(5 * 64)。关于这些颜色描述符,用于处理行人图像的参数主要来自[Lisanti et al. 2015],除了条纹配置的一些细微变化和我们在这项工作中引入的额外Lab颜色空间。对于纹理通道,我们从图像边界移除6个像素,并使用4个bins计算HOG描述符用于渐变方向。 HOG f具有1040维度,而每个区域特征具有320维度。不同于[Lisanti et al. 2015],我们还使用[Ojala et al. 2002]提出的LBP直方图的标准量化添加了另一个基于LBP的纹理描述符。更准确地说,LBP特征是在网格上计算的,其中单元格为16像素,使用58个bins。 LBP f具有1218维,而每个区域特征具有348维。

       图1.我们的特征描述符提取过程的图示。 我们从完整图像以及图像的上部,中部和下部区域提取颜色(HS,RGB和Lab)和纹理(HOG和LBP)特征。

3. MULTI CHANNEL-KERNEL CANONICAL CORRELATION ANALYSIS

        由于光照变化和姿势变化,匹配来自两个不同相机的同一个人的两张图像可能是困难的。 由于图像的不同特征和组件可能受到不同的影响,我们建议分别为每个通道(一个组件中提取的一个特征)学习一个共同的投影空间。 为了学习这些常见的投影空间,我们采用了KCCA [Hardoon et al. 2004] 。 已经证明,当应用于整个图像描述符时,它是有效的,如[Lisanti et al. 2014]。

        我们介绍以下符号。给定一个特征通道让我们分别为摄像头a和摄像头b定义特征向量的集合以及特征向量的集合,同时使用摄像头a用于候选集,摄像头b用于探针,我们定义:

       其中,是两个摄像头的训练集,是摄像头a的候选集并且是摄像头b的探针集合。行人再识别任务是根据与探针的相似性对已知目标库中的所有个体进行排名。 在下文中,为了清楚地说明,我们将在符号中省略对通道c的引用。

3.1. Training KCCA

        KCCA构造子空间,最大化变量对之间的相关性。 通过利用内核技巧来执行到更高维空间的特征映射。

       在我们的例子中,给定来自相机对的相应特征向量,用于每个通道,我们定义来自训练集的核矩阵为为来自候选集和训练集的核矩阵对,为来自训练和探针集合的核矩阵。

         KCCA的目标函数通过解决下式来求解投影权重

      根据  [Hardoon et al. 2004].投影向量的范数被正则化目的是为了避免琐碎解决方法。

      正则化后得到的标准特征值问题的前M个本征向量可以如下应用于图库和探针:

         其中,它们是学习的投影,而是从KCCA获得的特征值的向量。 使用对学习投影进行加权可以使投影空间中具有更高特征值的那些维度更具相关性,从而改善整体匹配性能。

        为了改善行人再识别,由于可以使用线性内核获得通道和相机对的令人满意的公共投影空间,或者可能需要更复杂的内核函数,我们建议为每个通道学习具有四个不同内核的多个KCCA投影。即,我们使用一个线性核,高斯径向基函数核(RBF),核以及指数核还有我们定义核的集合。我们选择这些核因为它们被广泛使用但是我们的方法不仅限于那些,可以很容易地扩展到其他内核。

4. SELECTION OF THE OPTIMAL CHANNEL-KERNEL COMBINATIONS         

        根据我们的行人表征,对于每个图像对,定义了80个值的距离向量(每个具有五个特征的四个分量,以及用于KCCA的四个不同的核)。 因此,我们的目标是将所有特征通道和内核组合在一起,使其组合成为最有效的行人再识别。 整个过程在图2中表示,并称为多通道多核规范相关分析(MCK-CCA)。

       图2.我们的多通道---多内核CCA(MCK-CCA)方法的说明图。 每个特征通道被馈送到不同的内核:为了清楚起见,我们在图中示出了单个通道HSf。 对于每一个组合,我们学习特定的KCCA投影,然后使用学习的投影将每个通道内核映射到其公共子空间。 余弦距离用于在给定通道---内核对的情况下执行匹配。 最后,将来自所有组合的距离堆叠在一起以形成距离向量。该距离向量是作为行人再识别的迭代逻辑回归的输入。

       在本节中,我们将详细介绍如何制定匹配过程,如何权衡每个通道 - 内核贡献,以及如何选择最佳的通道内核组合。

4.1. Matching with logistic regression     

     我们提出使用逻辑回归制定匹配概率。考虑到特征向量和特征向量我们定义为KCCA投影与偏差项连接后,这两个特征向量之间的距离向量。这两个样本表示同一行人的概率是:

   其中,r表示权重向量。

4.2. Learning the logistic regression weights

        分别考虑来自摄像头a和摄像头b的训练集合,等式(6)中的权重向量通过优化以下逻辑回归函数被学习:

        其中,是特征向量(样本i来自于摄像头a)和特征向量(样本j来自于摄像头b)的距离向量,在带有偏差的KCCA投影连接之后。解释了两个特征对应于两个视图中的同一个人的事实,并且C是惩罚参数。在训练集运用二折交叉验证偏差和参数C被挑选,更多细节在第5.1节给出。请注意,最终模型使用交叉验证程序中的最佳偏差和C值在整个训练集上进行训练。

  4.3. Iterative learning of logistic regression weights     

      正权重表明来自于一个特征通道以及内核的一个不可靠的距离。让我们定义为一个通道和一个内核在逻辑回归中对应的权重的距离。等式(6)中的向量乘法可以被写为在所有通道和内核的结果。可以观察到,与正权重相结合的大距离值(应该对应于非匹配对)实际上会导致较低的分母,从而导致较高的匹配概率。

      根据这一观察,我们推导出一个迭代过滤程序,逐步退出任何具有正权重的通道内核。 特别地,给定从通道内核计算的一组距离,我们学习逻辑回归模型。 删除具有正权重的通道内核,并使用剩余的距离子集来学习新的逻辑回归模型。 应用此过程直到没有正权重,并且在实验上它永远不需要超过三次迭代来达到该条件。 也就是说,在最多三次迭代之后,所有权重都是负的,因此迭代过程停止。

5. EXPERIMENTS

       我们在四种标准的公开可得到的行人再识别数据集上进行实验:VIPeR [Gray and Tao 2008], PRID [Hirzer et al. 2012b], PRID450s [Roth et al. 2014] 和 CUHK01 [Li et al. 2013].

       VIPeR [Gray and Tao 2008]呈现了视图对之间的光照变化和姿态变化。我们将632对图像随机划分为两组316对图像,一个用于训练,另一个用于测试。测试集进一步划分为一个候选集和一个探针集。从探针集合挑选的一张图片同候选集中的任何一张图片进行匹配。这个过程对探针集合中的所有图片进行重复。并且对[Farenzena et al. 2010]公开获得的10个分组进行评估程序。

        PRID数据集 [Hirzer et al. 2012b]通常被认为比VIPeR更具挑战性。 它包括干扰物以及相机之间的强烈照明变化。 与VIPeR不同,在该数据集中,人物图像是从上方获得的,具有相似的姿势。 摄像机视图a包含385个人,摄像机视图b包含749个人,200个行人在两个视图中同时出现。 这些图像对被随机分成训练和相同大小的测试集。 对于评估,摄像机a用作探针,摄像机b用作图库。 因此,在649人(其中549人是干扰者)的图库集中搜索探针集中的100个人中的每一个。

          PRID 450s数据集 [Roth et al. 2014]具有与PRID几乎相同的特征,但不包括干扰物。 因此,尽管外观不同,该数据集的实验设置与VIPeR的实验设置相似。 该数据集包含由两个摄像机捕获的450个人图像对,图像对分为225个用于训练,225个用于测试。

         CUHK01 [Li et al. 2013]数据集,也称为CUHK Campus数据集,在校园环境中使用两台摄像机拍摄。 与以前的数据集不同,CUHK01图像具有高分辨率。 它包含971个人,每个人在每个摄像机视图中有两个图像。 人员大多是从摄像机a以正面姿势捕获的,并且在摄像机b中具有低照度变化的轮廓姿势。人物身份被分成485用于训练,486用于测试。 该数据集提供两种评估方式:单次拍摄,每个受试者一个样本(SvsS)以及多次拍摄,每个受试者两个样本(MvsM N = 2)。

       VIPeR,PRID和PRID 450s的评估是在单次拍摄协议之后进行的。 在CUHK01上,我们进行单次和多次拍摄实验。 所有实验均在10次试验中取平均值。

5.1. Parameter settings

         在我们的实验中,对于RBF(径向基函数)和指数核,归一化参数已经被估计,取得训练集中所有距离的中位数。至于KCCA,我们设定 Partial Gram-Schmidt Orthogonalization (PGSO)的重建误差为,然而正如 [Lisanti et al. 2014]中,我们设定正则化参数最后,对于逻辑损失函数,我们对惩罚参数和偏差进行交叉二次验证以预测他们的最优值,分别在范围

5.2. Comparison with techniques learning a common space

         在表1中。 我们报告与其他方法的比较,类似于我们的解决方案,学习两个视图之间的公共空间,以便简化重新识别问题。在此表中,我们还强调一个方法是否使用深度学习(DL)来学习公共空间,如果它使用判别度量学习方法(ML)并且如果它使用非线性(NL)。 很明显,非线性本身的使用已经与使用参考集的其他技术的准确性相匹配[An et al. 2016; An et al. 2013]或Robust CCA(ROCCA) [An et al. 2015]. 在文 [Lisanti et al. 2014]中非线性通过被提供或者像 [Ahmed et al. 2015]中通过训练一个深度CNN获得。一个单一的非线性KCCA甚至比 [Li and Wang 2013]中同样使用度量学习更加有效。然而,尽管在我们的方法中没有使用度量学习,但是通过使用所提出的MCK-CCA获得的不同信道和核的相互作用,实现了这种类型的方法中的最先进性能。 所提出的方法确实在很大程度上改善了单核基准以及最近的方法 [Liao et al. 2015; Ahmed et al. 2015].

 5.3. Comparison with metric learning techniques  

        在这个实验中,我们比较了我们学习常见投影空间与度量学习的策略,两者都适用于我们的行人表示。特别地,我们比较了大边缘最近邻(LMNN)[Weinberger和Saul 2009]和基于Logistic判判率的度量学习(LDML)[Guillaumin et al]。使用我们的多通道,多内核CCA(MCK-CCA)的技术。实验设置如下:在所有方法中,我们使用由五个特征组成的行人表示,其中包括四个组成部分;然后,对于Sect 2中定义的每个通道。我们计算LMNN,LDML和KCCA投影。我们最终使用所提出的迭代逻辑回归将所有距离融合在一起。该实验在VIPeR数据集上进行,并且性能在10次试验中取平均值。我们报告了仅使用线性内核(MC-Linear KCCA)和所有内核(MCK-CCA)获得的MCK-CCA的性能。在图3中,我们可以看到在相同设置下,仅具有线性内核的MCK-CCA如何在两种度量学习方法上得到改进。具有所有内核的MCK-CCA实现了更高的性能。这个实验表明,学习两个投影,每个摄像机一个,在同一个人的特征高度相关的公共空间中映射数据比学习单个度量更有效[Weinberger和Saul 2009; Guillaumin等。 2009年]。此外,这一观察也得到了其他近期方法的支持,这些方法也提出了学习度量和公共空间来处理交叉视图匹配的想法[Liao et al。 2015年]。

        

5.4. Comparison with the state-of-the-art

       我们现在将我们的方法的性能与最先进的方法进行比较。特别地,我们提供了所提出的多通道,多核CCA(MCK-CCA)与最新技术的并排比较,例如:EIML [Hirzer et al。 2012a],RPLM [Hirzer et al。 2012b],eSDC [Rui Zhao 2013],SalMatch [Zhao et al。 2013],Li等人[Li and Wang 2013],KLMM  [Xiong et al. 2014],改进的DML [Yi et al。 2014b],mFilter [Zhao et al. 2014], PLS +原型 [de Carvalho Prates and Schwartz 2015], Siamese CNN [Ahmed et al。2015],CSL [Shen et al。 2015],ECM [Liu et al.2015b],LOMO [Liao et al。 2015],Ensemble Metrics [Paisitkriangkrai et al。 2015],SCNCD [Yang et al。 2014],KRMCA [Liu et al。 2015a],语义属性[Shi et al.2015],SLTRL [Wang et al。 2016年]。对于我们的方法,我们都考虑使用具有和不使用信道内核的迭代过滤的逻辑回归的情况(分别使用“MCK-CCA with LR”和“MCK-CCA with filteredLR”)。此外,我们将我们提出的迭代过滤程序的性能与使用逻辑回归模型获得的结果进行比较,该模型对权重的L1约束强制实施稀疏性,我们称之为“MCK-CCA with sparseLR”。所有数据集的结果表明,我们提出的迭代滤波方法是一种更有效的方法来选择最佳的通道内核。

       在表 II中,我们在VIPeR数据集上报告结果。 值得注意的是,Ensemble Metrics和我们的方法,分别学习多个指标和投影,以应对该数据集的姿势和光照的变化,得到最佳结果。 看来我们的MCK-CCA相对于Ensemble Metrics在rank-1上提高了几个百分点。 LOMO + XQDA [Liao et al。 2015]方法利用度量学习并在我们的解决方案中将特征投影执行到两个视图之间的公共空间,尽管使用不同的方法,但具有低得多的性能。 最后,在基于CNN的方法中,Siamese CNN [Ahmed et al。 2015]具有最佳性能,但未达到最先进的结果。

        在表 III中,我们在PRID数据集上显示各级别的识别率。 我们的MCK-CCA大幅优于所有其他方法。 对于它们中的每一个使用多个颜色特征和多个共同投影空间,允许处理视图之间的强烈照明差异。 使用单个表示的所有解决方案似乎都不太稳健。 Ensemble Metrics在第1级达到17.9%的识别率,比我们的方法低约10%。 值得注意的是我们以前的方法[Lisanti et al. 2014]使用单一功能和单个内核的KCCA投影具有与Ensemble Metrics相当的性能。

      在Tab IV中, 我们在PRID 450s数据集上报告结果。 在这个数据集上,我们的MCK-CCA具有类似的性能趋势,并且与SLTRL具有可比性的分数[Wang et al。 2016]和LOMO + XQDA [Liao et al。2015年]。 两种方法都旨在学习输入的变换以应对外观和姿势变化。 SLTRL和LOMO + XQDA方法在rank-1上优于我们的方法,但是我们的方法在rank-10获得最佳性能。 这很可能是因为PRID450s的外观变化通过使其比LOMO更少判别性来挑战我们的人物代表:事实上,与其他数据集不同,PRID 450具有独特的特点,从顶视图观察行人并且两个相机之间的比例略有不同。

       在CUHK01数据集上,我们对单次拍摄(SvsS)和多次拍摄(MvsM N = 2)模态进行了比较。 结果分别显示在表格V和VI中。 对于这两种协议,MCK-CCA的性能都超过了现有技术水平。 我们的MCK-CCA将不同表示关联到公共投影空间的能力对此数据集非常有效。

5.5. Contribution of each channel-kernel

      在图4中,我们分别为每个内核显示了我们行人表征中使用的每个颜色空间和纹理特征的贡献。对于这些实验,考虑整幅行人图像进行特征提取,而丢弃上部,中部和下部区域以便于分析。 CUHK01数据集已用于此实验,因为它是我们测试中使用的最大数据集。这些图分别显示了每个特征的性能,所有颜色空间的组合以及包括纹理特征的完整组合。虽然很明显不同颜色空间中的颜色直方图贡献最大,但值得注意的是,使用纹理特征可以获得更高的性能,例如,对于线性和RBF(径向基函数)内核,在rank-1处从30%到40%。我们使用的所有内核都保持了这种改进。最后,我们的迭代逻辑回归中所有通道内核的组合将rank-1的识别率推高到57%,如Sect5.4中的表V所示。

     在图5中,我们使用线性内核以及它们的组合报告每个颜色空间直方图和纹理特征的人物表示中每个分量的贡献。 对于颜色特征,可以观察到每个组件的表现不同。 完整组件在3色空间中优于其他组件,但所有组件的组合在很大程度上提高了性能。 另一方面,纹理特征对于识别不太有效,特别是当在较低区域上计算时。 这就解释了为什么我们的迭代逻辑回归大多会降低后一个通道,正如它将在Sect5.6中显示。

5.6. Analysis of iterative logistic regression     

      在本节中,我们通过迭代逻辑回归分析每个通道和内核组合的过滤方式,分析迭代融合方案的性能。 此外,我们显示了我们的MCK-CCA融合方案与早期融合KCCA基线之间的性能差异 [Lisanti et al. 2014].

      图6中的每个图显示了每个数据集的权重过滤概率:在y轴上我们报告通道,而在x轴上我们报告内核。 此外,对于每个图,在矩阵的右边部分,我们显示了在所有内核中删除给定通道的次数; 相反,在底部,我们显示了在所有通道中删除内核的次数。 我们可以看到MCK-CCA在所有数据集上广泛使用迭代逻辑回归过滤。 VIPeR可能被视为例外,因为大多数通道内核经常被维护。 我们对VIPeR的分析表明,弱通道由HOG l,LBP f 和 LBP m表示。 这些通道对应于由于低图像分辨率而在VIPeR上可能有噪声的纹理特征。

        关于PRID,PRID 450s和CUHK01,我们可以观察到,通常对于纹理特征,不太相关的组件是完整区域和下区域。 特别是,LBP f和HOG l经常被滤除。 相反,对于颜色特征,这三个数据集的共同点是通道Lab f被高概率地移除,而通常在VIPeR上维护。 还可以看出,尽管在文献中大量使用,但RBF内核通常比其他内核更频繁地丢弃。这是合理的因为核更好的适应直方图,这被应用在我们的特征之中。

       最后,考虑到表II,III,IV,V,VI中给出的所有结果,我们可以看到,我们的后期融合在很大程度上优于单个KCCA学习堆叠特征,如[Lisanti et al. 2014]。 这主要是因为后期融合方案允许最大化每个信道核组合的辨别力。 此外,在大多数情况下,迭代逻辑回归方案能够选择最重要的信道核组合并对它们进行加权,以便更加重视最具辨别力的组合。

5.7. Computational Complexity        

       我们的方法广泛使用了KCCA的内核技巧和多种应用。 尽管这需要在训练时进行计算,但是该方法在测试时具有适度的计算负担仍然有效。 此外,由于迭代逻辑回归量,该方法能够丢弃一些无用的通道内核组合以进一步加速匹配。 下面,我们将有关训练和测试复杂性的讨论分开。 这些实验是在CUHK01数据集上进行的,因为它是我们使用的数据集中最大的数据集,为计算成本评估提供了统计上显著的测试。 实验在具有20核Intel Xeon@2.6GhZ和256GB RAM的工作台上进行。

5.7.1. Computational effort at training time.
       KCCA的基准复杂性取决于所使用的训练样本的数量。假设我们有个样本用以解决等式(3),然后,解决特征值问题的复杂性变为。尽管这种复杂性对于大量训练样本来说似乎过于昂贵,但我们的方法能够执行Sect 3.1的学习步骤无缝地处理我们处理的数据集。 我们的方法通过20个通道乘以4个内核的组合来学习离线80个KCCA预测; 通道数由5个特征乘以4个分量给出。 注意,通过选择最佳信道核组合(第4节),可以丢弃所学习的一些KCCA预测。 然后在测试时使用该选择。我们学习部分的时间如图7(a)所示,是训练样本的函数。我们的方法可以核化训练集和候选集,最差在200s(小于3min)内学习KCCA投影和估计逻辑回归权重,这也解释了应用迭代过滤程序选择最有用的通道内核所花费的时间。

      作为旁注,即使在行人再识别应用程序需要大规模工作的情况下,我们的方法仍然可以应用:大规模学习KCCA的方法基于随机投影,近似的低维随机特征空间内核评估[Rahimi和Recht 2007],或者最近,使用随机优化来近似KCCA [Wang和Livescu 2016]。

5.7.2. Computational effort at test time.

        比训练时间更重要的是在测试时的工作。在这种情况下,MCK-CCA的计算复杂度仍然非常有效:该方法需要针对训练集核化探针,然后使用学习的KCCA基础计算80个线性投影;最后,它与投影图库进行标准化的内积比较。此外,通过为每个数据集选择最佳信道核组合,先验地减少了使用的KCCA预测量。图7(b)示出了使用NT的训练样本的平均行人再识别时间(以秒为单位)。当我们使用所有通道内核组合时,我们可以看到MCK-CCA的计算复杂度:红色虚线曲线显示了这取决于我们对探针进行内核化时使用的训练集的大小。此外,我们还分解了每个内核的复杂性,并确认线性内核对训练样本大多不变。有趣的是,我们可以看到所提出的迭代逻辑回归如何有助于加速性能:不仅降低逻辑回归权重提高了准确性,而且减少了显著数量的计算工作量。图7(b),在底部,还报告了当我们应用我们提出的方法(具有过滤LR的MCK-CCA)时丢弃的权重的百分比。

6. CONCLUSION

        我们提出了一种方法来克服行人再识别交叉视图的主要挑战之一,即处理剧烈的外观变化。 MCK-CCA的理念是通过多种表示来解决不同摄像机视图中人物外观的极端可变性。 这些表示被投影到多个空间,强调使用KCCA和不同内核的外观相关性。 最后,我们的解决方案通过迭代逻辑回归学习观察对的最合适的组合,在标准行人再识别基准上产生令人信服的结果,而不会损害计算复杂性。 所提出的技术还显示出与学习共同子空间或使用度量学习的最新方法相比具有竞争力。 研究将度量学习直接纳入我们的方法的概率可能代表了未来工作的一个有趣的研究方向。

REFERENCES
Ejaz Ahmed, Michael Jones, and Tim K. Marks. 2015. An Improved Deep Learning Architecture for Person
Re-Identification. In Proc. of the Conf. on Computer Vision and Pattern Recognition. 2, 10, 11, 12, 13
Le An, Mehran Kafai, Songfan Yang, and Bir Bhanu. 2013. Reference-based person re-identification. In Proc.
of the Int. Conf. on Advanced Video and Signal Based Surveillance. 4, 10
Le An, Mehran Kafai, Songfan Yang, and Bir Bhanu. 2016. Person Reidentification With Reference Descrip-
tor. IEEE Transactions on Circuits and Systems for Video Technology 26, 4 (April 2016), 776–787. 4,
10
Le An, Songfan Yang, and Bir Bhanu. 2015. Person Re-Identification by Robust Canonical Correlation Anal-
ysis. IEEE Signal Processing Letters 22, 8 (August 2015), 1103–1107. 4, 10
Apurva Bedagkar-Gala and Shishir K Shah. 2014. A survey of approaches and trends in person re-
identification. Image and Vision Computing 32, 4 (April 2014), 270–286. 2
Dong Seon Cheng, Marco Cristani, Michele Stoppa, Loris Bazzani, and Vittorio Murino. 2011. Custom Pic-
torial Structures for Re-identification. In Proc. of the British Mach. Vision Conf. 2
Navneet Dalal and Bill Triggs. 2005. Histograms of Oriented Gradients for Human Detection. In Proc. of the
Conf. on Computer Vision and Pattern Recognition. 5
Raphael Felipe de Carvalho Prates and William Robson Schwartz. 2015. Appearance-based person re-
identification by intra-camera discriminative models and rank aggregation. In Proc. of the Int. Conf.
on Biometrics. 3, 11, 12
Gianfranco Doretto, Thomas Sebastian, Peter Tu, and Jens Rittscher. 2011. Appearance-based person rei-
dentification in camera networks: problem overview and current approaches. Journal of Ambient Intel-
ligence and Humanized Computing 2, 2 (January 2011), 127–151. 2
Michela Farenzena, Loris Bazzani, Alessandro Perina, Vittorio Murino, and Marco Cristani. 2010. Person
re-identification by symmetry-driven accumulation of local features. In Proc. of the Conf. on Computer
Vision and Pattern Recognition. 2, 9
Douglas Gray and Hai Tao. 2008. Viewpoint Invariant Pedestrian Recognition with an Ensemble of Localized
Features. In Proc. of the European Conf. on Computer Vision. 9
Matthieu Guillaumin, Jakob Verbeek, and Cordelia Schmid. 2009. Is that you? Metric learning approaches
for face identification. In Proc. of the Int. Conf. on Computer Vision. 10, 11
David R. Hardoon, Sandor Szedmak, and John Shawe-Taylor. 2004. Canonical correlation analysis: An
overview with application to learning methods. Neural Computation 16, 12 (December 2004), 2639–
2664. 6
Martin Hirzer, Peter M. Roth, and Horst Bischof. 2012a. Person Re-identification by Efficient Impostor-
Based Metric Learning. In Proc. of the Int. Conf. on Advanced Video and Signal Based Surveillance. 3,
11, 12
Martin Hirzer, Peter M. Roth, Martin Köstinger, and Horst Bischof. 2012b. Relaxed pairwise learned metric
for person re-identification. In Proc. of the European Conf. on Computer Vision. 9, 11, 12
Svebor Karaman and Andrew D Bagdanov. 2012. Identity inference: generalizing person re-identification
scenarios. In Proc. of the European Conf. on Computer Vision Workshops. 4
Svebor Karaman, Giuseppe Lisanti, Andrew D. Bagdanov, and Alberto Del Bimbo. 2014. Leveraging local
neighborhood topology for large scale person re-identification. Pattern Recognition 47, 12 (December
2014), 3767 – 3778. 4
Martin Köstinger, Martin Hirzer, Paul Wohlhart, Peter M. Roth, and Horst Bischof. 2012. Large Scale Metric
Learning from Equivalence Constraints. In Proc. of the Conf. on Computer Vision and Pattern Recogni-
tion. 3, 4
Wei Li and Xiaogang Wang. 2013. Locally Aligned Feature Transforms across Views. In Proc. of the Conf. on
Computer Vision and Pattern Recognition. 4, 10, 11
Wei Li, Rui Zhao, and Xiaogang Wang. 2013. Human Reidentification with Transferred Metric Learning. In
Proc. of the Asian Conf. on Computer Vision. 9
Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. 2014. DeepReID: Deep Filter Pairing Neural Network for
Person Re-Identification. In Proc. of the Conf. on Computer Vision and Pattern Recognition. 2, 13
Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z. Li. 2015. Person Re-Identification by Local Maximal
Occurrence Representation and Metric Learning. In Proc. of the Conf. on Computer Vision and Pattern
Recognition. 4, 10, 11, 12, 13  

Giuseppe Lisanti, Iacopo Masi, Andrew D. Bagdanov, and Alberto Del Bimbo. 2015. Person Re-identification
by Iterative Re-weighted Sparse Ranking. Trans. Pattern Anal. Mach. Intell. 37, 8 (August 2015), 1629–
1642. 4, 6
Giuseppe Lisanti, Iacopo Masi, and Alberto Del Bimbo. 2014. Matching People across Camera Views us-
ing Kernel Canonical Correlation Analysis. In Proc. of the ACM/IEEE Int. Conf. on Distributed Smart
Cameras. 4, 6, 9, 10, 11, 12, 13, 14, 15
Hao Liu, Meibin Qi, and Jianguo Jiang. 2015a. Kernelized relaxed margin components analysis for person
re-identification. IEEE Signal Processing Letters 22, 7 (July 2015), 910–914. 3, 4, 11
Xiaokai Liu, Hongyu Wang, Yi Wu, Jimei Yang, and Ming-Hsuan Yang. 2015b. An Ensemble Color Model
for Human Re-identification. In Proc. of the Winter Conf. on App. of Computer Vision. 3, 11, 12
T. Ojala, M. Pietikainen, and T. Maenpaa. 2002. Multiresolution gray-scale and rotation invariant texture
classification with local binary patterns. Trans. Pattern Anal. Mach. Intell. 24, 7 (July 2002), 971–987. 6
Sakrapee Paisitkriangkrai, Chunhua Shen, and Anton van den Hengel. 2015. Learning to Rank in Person
Re-Identification With Metric Ensembles. In Proc. of the Conf. on Computer Vision and Pattern Recog-
nition. 3, 11, 12, 13
Bryan Prosser, Wei-Shi Zheng, Shaogang Gong, and Tao Xiang. 2010. Person Re-Identification by Support
Vector Ranking. In Proc. of the British Machine Vision Conference. 4
Ali Rahimi and Benjamin Recht. 2007. Random Features for Large-Scale Kernel Machines. In Proc. of the
Conf. on Neural Information Processing Systems. 16
Peter M. Roth, Martin Hirzer, Martin Koestinger, Csaba Beleznai, and Horst Bischof. 2014. Mahalanobis
Distance Learning for Person Re-Identification. In Person Re-Identification, Shaogang Gong, Marco
Cristani, Shuicheng Yan, and Chen C. Loy (Eds.). Springer, London, United Kingdom, 247–267. 9
Xiaogang Wang Rui Zhao, Wanli Ouyang. 2013. Unsupervised Salience Learning for Person Re-
identification. In Proc. of the Conf. on Computer Vision and Pattern Recognition. 3, 11
Yang Shen, Weiyao Lin, Junchi Yan, Mingliang Xu, Jianxin Wu, and Jingdong Wang. 2015. Person Re-
Identification With Correspondence Structure Learning. In Proc. of the Int. Conf. on Computer Vision.
3, 11, 12
Zhiyuan Shi, Timothy M. Hospedales, and Tao Xiang. 2015. Transferring a Semantic Representation for
Person Re-Identification and Search. In Proc. of the Conf. on Computer Vision and Pattern Recognition.
3, 11, 12, 13
Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf. 2014. DeepFace: Closing the Gap to
Human-Level Performance in Face Verification. In Proc. of the Conf. on Computer Vision and Pattern
Recognition. 2
Roberto Vezzani, Davide Baltieri, and Rita Cucchiara. 2013. People reidentification in surveillance and
forensics: A survey. ACM Computing Surveys (CSUR) 46, 2 (November 2013), 29:1–29:37. 2
Jin Wang, Nong Sang, Zheng Wang, and Changxin Gao. 2016. Similarity Learning with Top-heavy Ranking
Loss for Person Re-identification. IEEE Signal Processing Letters 23, 1 (January 2016), 84–88. 3, 11, 12,
13
Weiran Wang and Karen Livescu. 2016. Large-Scale Approximate Kernel Canonical Correlation Analysis.
In Proc. of the Int. Conf. on Learning Representations. 17
Kilian Q. Weinberger and Lawrence K. Saul. 2009. Distance metric learning for large margin nearest neigh-
bor classification. The Journal of Machine Learning Research 10 (June 2009), 207–244. 3, 10, 11
Fei Xiong, Mengran Gou, Octavia Camps, and Mario Sznaier. 2014. Person Re-Identification Using Kernel-
Based Metric Learning Methods. In Proc. of the European Conf. on Computer Vision. 3, 11
Yang Yang, Jimei Yang, Junjie Yan, Shengcai Liao, Dong Yi, and Stan Z. Li. 2014. Salient Color Names for
Person Re-identification. In Proc. of the European Conf. on Computer Vision. 3, 11, 12
Dong Yi, Zhen Lei, and Stan Z. Li. 2014a. Deep Metric Learning for Person Re-Identification. In Proc. of the
Int. Conf. on Pattern Recognition. 2
Dong Yi, Zhen Lei, and Stan Z. Li. 2014b. Deep Metric Learning for Practical Person Re-Identification. arxiv
preprint abs/1407.4979 (2014). 2, 11, 12
Rui Zhao, Wanli Ouyang, and Xiaogang Wang. 2013. Person Re-identification by Salience Matching. In Proc.
of the Int. Conf. on Computer Vision. 3, 11
Rui Zhao, Wanli Ouyang, and Xiaogang Wang. 2014. Learning Mid-level Filters for Person Re-identification.
In Proc. of the Conf. on Computer Vision and Pattern Recognition. 3, 11, 13

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 规范相关分析(Canonical Correlation Analysis)是一种多元统计分析方法,用于研究两组变量之间的关系。它可以找到两组变量之间的最大相关性,并将它们转化为一组规范变量,以便更好地理解它们之间的关系。规范相关分析在社会科学、生物医学、工程学等领域都有广泛的应用。 ### 回答2: 正交化回归与正交化主成分分析都是寻找两组变量之间的关系,并将它们投影到彼此相交的新坐标轴上,但这两种方法都假设两组变量是互相独立的。如果两组变量不独立,可以考虑使用典型相关分析(Canonical Correlation Analysis,CCA)。 典型相关分析是一种多元统计方法,用于分析两组变量之间的关系。它探究了两组变量之间的最大相关性,即找到一组线性组合,将两组变量都映射到这个新空间中,并最大化它们的相关性。这个线性组合被称为典型变量(canonical variable)。在CCA中,每组变量都有一组典型变量,典型变量对应着两组变量的最大相关性。 典型相关分析常用于以下领域: 1. 两组变量之间的关系分析:CCA可以用来寻找两组变量之间的关系,比如探究家庭收入与教育水平之间的关系,或者探究公司销售额与广告费用之间的关系等。 2. 数据降维:CCA可以用来将两组变量降维,将多维数据转换为低维数据,同时保留尽可能多的信息。 3. 数据分类:CCA可以用于分类问题,比如将两组变量分类为高相关性和低相关性等。 CCA的做法是:首先分别标准化两组变量,并求出它们的相关系数矩阵。然后用一个特殊的正交化方法(万能公式)来得到典型变量。这个正交化方法确保每一对典型变量都是相互独立的,并且每个典型变量是全局最优解,即在所有可能的线性组合中,与另一组变量相关性最大。 最后,可以根据每对典型变量计算它们之间的相关性系数,得到它们之间的典型相关系数。这个值的大小表示两组变量之间的关系强度。 需要注意的是,CCA假设两组变量都是正态分布的,如果不是,则可能需要采取一些转换。此外,由于CCA是一个线性方法,因此无法处理非线性关系,如果两组变量之间是非线性关系,可以考虑使用其他方法,比如核典型相关分析。 ### 回答3: Canonical Correlation Analysis(CCA)又称为典型相关分析,是一种常用于分析两个数据集之间线性相关性的统计方法。该方法旨在找到两个不同数据集之间的最大相关性的线性组合。 CCA的目标是找到两个变量集之间的最大相关性,其中每个集合中的变量都是线性组合的。算法从两个变量集开始,分别叫做X和Y。CCA的任务是找到X和Y中的线性组合,称为X'和Y',使得它们之间的相关性最大。换句话说,CCA的目的是为了获得一组新的变量,它们可以彼此关联,但是没有重复的信息。 CCA的数学模型表明,CCAs的计算量随数据集的数量呈平方增长,这意味着需要大量的计算资源来执行。另外,由于它是一种线性方法,所以它不能处理非线性关系。 CCA在现实生活的应用中非常普遍,例如,它常用于分析不同的数据集之间的相关性,如分析营销数据和消费者行为数据之间的关联,或分析医学图像和生物学数据之间的关联。此外,CCA的主成分分析(PCA)版本也被广泛应用于许多现实生活的数据分析和建模任务,例如在模式识别和人脸识别等领域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值