Hierarchical Gaussian Descriptor for Person Re-Identification（CVPR2016）

最新推荐文章于 2024-09-14 09:07:23 发布

「已注销」

最新推荐文章于 2024-09-14 09:07:23 发布

阅读量1.6k

点赞数

分类专栏：行人再识别文章标签：行人再识别

行人再识别专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Abstract

Describing the color and textural information of a person image is one of the most crucial aspects of person re-identification. In this paper, we present a novel descriptor based on a hierarchical distribution of pixel features.A hierarchical covariance descriptor has been successfully applied for image classification. However, the mean information of pixel features, which is absent in covariance,tends to be major discriminative information of person images. To solve this problem, we describe a local region in an image via hierarchical Gaussian distribution in which both means and covariances are included in their parameters. More specifically, we model the region as a set of multiple Gaussian distributions in which each Gaussian represents the appearance of a local patch. The characteristics of the set of Gaussians are again described by another Gaussian distribution. In both steps, unlike the hierarchical covariance descriptor, the proposed descriptor can model both the mean and the covariance information of pixel features properly. The results of experiments conducted on five databases indicate that the proposed descriptor exhibits remarkably high performance which outperforms the state-of-the-art descriptors for person re-identification.

描述行人图像的颜色和纹理信息是行人重识别的最重要方面之一。在本文中，我们提出了一种基于像素特征的层次分布的新描述符。层次协方差描述符已成功应用于图像分类。然而，协方差中不存在的像素特征的平均信息往往是人物图像的主要判别信息。为了解决这个问题，我们通过分层高斯分布描述图像中的局部区域，其中均值和协方差都包含在它们的参数中。更具体地说，我们将该区域建模为一组多个高斯分布，其中每个高斯分布代表局部块的外观。高斯集的特征再次由另一高斯分布描述。在两个步骤中，与分层协方差描述符不同，所提出的描述符可以适当地模拟像素特征的均值和协方差信息。在五个数据库上进行的实验结果表明，所提出的描述符表现出非常高的性能，其优于用于人重新识别的最新描述符。

介绍

使用分层模型的动机来源于行人图像的外观结构。行人的衣服包括局部块，每个局部块都有颜色和纹理结构。这些块的空间布局决定了全局外观结构。然而，现存的许多描述子是基于一个区域内的像素特征的全局分布，因此，行人图像的局部结构丢失。相反，我们提出的描述子使用像素特征的局部分布刻画了全局分布。的确，它可以区分有相同的全局分布却有着不同的结构纹理，如图1所示。

（a）每个区域都有相同的像素特征（每一种颜色代表相同的特征向量）分布（均值/协方差）;

（b）区域内的局部块有不同的像素分布；

（c）区域可通过块等级分布的分布进行区别。

我们使用高斯分布作为分层的一个基准元件。这种分布的使用动机是来源于局部块的均值颜色的重要性。虽然协方差描述子的分层表示已经被提出，但是均值信息没有囊括在每一个层中。均值信息的损失是一个至关重要的问题（当他们被应用在行人再识别中）。这是因为一个行人穿着在每一个部分中有由少量颜色组成的趋势，因此在每一个局部块中均值颜色趋于成为最主要判别信息。如图2所示，局部颜色的均值图像包含不同行人的高区分信息。

我们称提出的分层方法为高斯-高斯描述子。高斯-高斯描述子提供一个简单概念且一致的形式来产生辨别的且鲁棒性的特征用来同时描述颜色和纹理信息。

我们在图3中显示了被称为GOG的分层高斯描述子。为了实现一张行人图像的特征表示，我们采用了一个基于局部的模型。我们假定一张行人图像的G个区域已经提前给出，这些区域是行人图像的典型水平条。提出的描述子返回区域的一个特征矢量。

（a）对于每一个区域，我们稠密性地提取局部块；

（b）然后我们使用像素特征的一个高斯分布来描述每一个局部块，我们将这些高斯成为斑块高斯；

（c）每一个块通过考虑高斯的强调几何，高斯被拉直和矢量化；

（d）区域内的块高斯被概括为区域高斯；

（e）我们进一步拉直区域高斯并且产生一个特征矢量；

（f）最终，来自于所有区域提取的特征矢量被连接成一个向量。

3.1 像素特征

让我们关注一张行人图像的G个区域中的一个。为了描述区域的局部结构我们用p像素间隔稠密性地提取（k*k像素）的方块（图3（a））.为了表征块中的每个元素，我们为每一个像素i提取d维特征矢量fi。特征向量可以是特征的任意一种类型，比如颜色，强度，梯度防线和滤波器响应。

由于每个块中的像素数量比较少，因此尺寸d优先选择较低，以便于下一步能鲁棒想的估计块高斯的协方差矩阵。本文中，我们提取8维像素特征定义如下：

其中，y表示在垂直方向上像素的位置，是沿四个方向的像素强度梯度的大小，R、G、B是颜色通道的值。f i的每个维度线性拉伸到范围[0,1]，以均衡不同特征值的比例。引入像素位置以利用每个区域内的空间信息。行人图像倾向于在垂直方向上很好地对准，而姿势/视点改变导致在水平方向上的大的未对准。（行人图像在垂直方向上是粗略对齐的）

梯度信息被引入用于描述衣服的纹理信息。梯度O = arctan（I y / I x）由强度I的x和y导数I x，I y计算。我们量化方向到四个bins；为了通过量化来补充信息的丢失，我们使用软投票到附近的两个方向bins，投票权重是从与GO矢量中的量化取向的距离线性确定的。为了关注高梯度边缘，我们多样化梯度幅度以量化方向并且获得方向的梯度幅度；

颜色信息是行人再识别中最重要的提示。我们使用最基本的颜色空间的颜色通道值：RGB。其他颜色空间（如Lab,HSV,YCbCr）可能会被使用。事实上，我们将在不同的颜色空间中延伸我们的像素特征。（见5.3节）

3.2 块高斯

在一个块内提取完像素特征之后，我们通过最经典的参数分布对它们进行汇总，该参数分布具有均值和协方差作为参数：高斯分布（见图3（b））。对于每一个块s，我们模拟特征向量为块高斯定义为

其中，是一个矩阵的行列式，是均值向量且是采样块s的协方差矩阵。均指向量和协方差矩阵通过被分别预测，其中是采样块s的面积且代表在该面积下的像素数量。

注意到稠密型采样的均值向量和协方差矩阵可以通过积分图像被有效地计算。由于区域是重叠的，由于区域可以重叠，我们为整个人物图像构建像素特征的积分图像，而不是为每个区域创建它们。

为了更准确地描述分布，可以使用高斯混合模型（GMM）。由于预期局部块由少量颜色/纹理组成，所以我们假设单峰高斯足以描述其像素特征的分布。

3.3 切线空间映射和半矢量化

正如我们将在下一小结中解释到的，我们的描述子是一个区域内块高斯的概括性特征。对于这种概括，像高斯均值或者协方差这样的数学操作是必须的。

从信息几何的角度来看，概率分布的空间被当作是一种黎曼流形（Riemannian manifold），其中欧几里德操作不能直接被应用。通过将黎曼流形投影到具有黎曼度量的切线空间中，可以将黎曼流形局部地平坦化为欧几里德空间。对称正定（SPD）矩阵的空间也被认为是黎曼流形，并且这个空间最近被很好地理解。正定对称矩阵的对数欧几里德度量提供了一种通过矩阵对数将流形上的点映射到欧几里得切线空间的可靠方法。为了利用对数欧几里德度量的好处，我们将块高斯嵌入到对称正定矩阵中。从信息集合文献分析可知，d维多元高斯空间可以嵌入到由表示的d+1维对称正定矩阵中。我们表示d维块高斯成作为。

局部块的协方差矩阵经常变得单一化由于块内的像素数目不充足。我们可以通过增加单位矩阵到（一个小的正常量）。

为了在一个欧几里德操作中描述区域分布，我们然后通过一个矩阵对数映射每一个块高斯到一个正切空间中。（图3（c））然后，我们将映射矩阵的上三角部分存储为矢量，因为矩阵是对称的。通过将非对角线条目视为在规范计算期间被计数两次，块高斯的矩阵变为维向量，定义为，其中，log(.)是矩阵对数操作符且是（i,j）元素。

3.4 在正切空间上的区域高斯

由于行人图像的姿态变化，局部部分的位置在不同观察中发生变化。因此，我们将局部块概述为一个无序的表征。更具体地说，我们将前一部分中的拉伸的块高斯（Gaussians）概括为一个区域分布（图3（d））。对于这种概括，我们也使用一种高斯分布，它不仅可以描述协方差也可以描述均值。再者，GMM也会用于描述更精确的分布。然而，在GMMs中匹配不是一个繁琐的问题同时在匹配区域描述子时会造成复杂性。通过考虑块的空间属性来执行具有高斯分布的概括。

人物图像通常包含在某些地方显著不同的背景区域。为了抑制背景区域的影响，我们以与加权颜色直方图类似的方式为每个块引入权重。在多数情况下，每张图像中的行人位于中心；因此，更高的值被分配给更接近图像的中心y轴的块：其中，这里，代表块s的中心像素x坐标，W是图像宽度。然后我们将加权平均向量和协方差矩阵定义为

其中是区域，区域内的块高斯被集成。使用均值向量和协方差矩阵，我们用区域高斯表示该区域。

由于大多数匹配方法（如度量学习）是在欧氏空间上设计的，因此在欧几里德空间中平滑区域高斯是很方便的。为此，我们以等式6相同的方式将m维区域高斯嵌入到m+1维对称的正定矩阵当中：。这里，协方差矩阵被规则化为然后我们映射Q到的切线空间，并将半矢量化以形成 (m^2 + 3*m)/2 + 1维特征向量，我们将其定义为z（图3（e））.

通过提取每个G区域的区域高斯，我们获得特征向量为了保持这些向量的空间位置，我们连接它们并且形成一个特征向量（图3（f））。然后，行人图像的特征表示变为

3.5. Fusion descriptor of different color spaces

已经证明，从不同颜色空间提取的描述符具有互补性质，并且它们的融合提高了重新识别精度

为了在GOG描述符中提取更多颜色信息，我们将方程（1）中的像素特征中的RGB通道值替换为三个替代颜色通道值{Lab，HSV，nRGB}并融合其GOG描述符。这里nRGB是标准化的颜色空间（例如，nR = R /（R + G + B））。由于此空间中存在冗余，因此我们仅在此颜色空间中使用{nR，nG}。因此，每个{RGB，Lab，HSV，nRnG}颜色空间的像素特征尺寸为d = {8,8,8,7}，因此块高斯向量的维数为m = {45,45,45,36}。

我们定义从等式（1）提取出的GOG描述子z为，同时提取自选择的颜色通道分别为和融合只是简单地将不同颜色空间下的GOG描述子进行连接。因此，融合描述子的维数为 3 (color spaces) × 1081 ( = (45^2 + 3 ×45)/2 + 1) × G (regions) + 1 (color space) × 703 ( =(36^2 + 3 × 36)/2 + 1) × G (regions).

3.6. Normalization of GOG

对于高维特征，归一化是提高其性能的重要因素。由于GOG描述符是高维的，我们通过使用L2范数归一化来归一化描述符，这是最广泛采用的归一化。

我们观察到存在在GOG描述符内的不同图像之间通常具有高/小值的维度。这是因为我们使用具有不同分布特性的像素特征，例如，梯度幅度在图像中稀疏地分布，并且颜色强度分布更均匀。在这种情况下，余弦距离，即归一化后的欧几里德距离，将受到偏置尺寸的支配。

为了弥补这种有偏差的维度，我们在对特征向量进行归一化之前去除训练样本的平均向量。 GOG的规范化如下：

其中，是GOG描述子的样本均值。对于融合的描述子，对于融合描述符，我们在连接它们之前规范化在四个颜色空间上提取的每个GOG描述符。

对于词袋模型表示，提出类似的归一化来反映余弦相似性的共缺失词[14]。相反，我们用它来弥补这种影响有偏见的尺寸。

4. Experiments
4.1. Setup

我们在5个基准数据集上评估了提出的描述子：VIPeR，CUHK01,GRID,PRID450S和CUHK03。我们将数据集中的每张图像重新调整大小为128*48像素以助于描述子的公共参数进行评估。

我们从7（G=7）个重叠的水平条中提取GOG描述子。每个水平条带由32*48像素组成。通过考虑计算时间与预测精度之间的折衷，我们在每个区域中以两个像素间隔(p=2)提取局部块。我们设置局部块的大小为5*5像素（k=5）。我们为区域高斯设置正则化参数为。这里，指矩阵的迹范数。在一些块高斯中，当块仅包含相等的像素值时，协方差矩阵的块高斯几乎变为0。因此，我们为块高斯设置一个小的常量，然后我们有我们为块高斯和区域高斯设定。

我们用距离度量学习来评价提出的描述子，交叉视角二次判别分析（XQDA）。KISS度量学习时广泛应用在行人重识别中。然而，当学习距离度量时，它对子空间的维度更敏感。XQDA学习一个辨别性的子空间同时学习一个距离度量，而且它能够自动选择最佳维度。

4.2. Performance analysis on VIPeR

本节中，我们在VIPeR数据集上使用我们的方法进行试验。VIPeR数据集是一个具有挑战性的数据集，它包含来自于两个摄像头的632个行人图像对。测试集取其一半，即316用于训练，316用于测试。我们进行10次评估程序，并报告平均累积匹配特征（CMC）曲线。

正如默认设置，我们使用RGB颜色空间像素特征同时在sec 3.6进行归一化。

Distribution modeling:

我们将GOG与其他的分布模型在图4（a）中进行比较。均值、协方差和高斯都是每个区域内的像素特征的全局分布描述子。协方差--协方差，协方差--高斯和GOG是分层分布描述子。使用对数欧式空间的正切空间映射和半矢量化被用于除均值之外的所有描述子。协方差矩阵的归一化参数被设置为和GOG一样的规则。7个区域的连接特征向量被用于所有的描述子。为了一个公平的比较，我们采用为所有的描述子使用加权的池化。

首先，我们比较全局分布描述子。均值和协方差的rank-1识别率分别为11.6%和23.6%，通过增加均值和协方差信息，高斯在rank-1识别率上比协方差好7.7%。这个结果证明了同时使用像素特征的均值和协方差信息的重要性。

我们然后比较分层分布的描述子。协方差--协方差使用块和区域模型中的协方差矩阵。它在rank-1识别率上比协方差好4.2%。下方差--高斯使用块模型的高斯和区域模型的协方差矩阵。它在rank-1识别率提高了高斯的性能9.7%。这些结果证实块高斯的协方差信息的重要性。通过增加区域模型的均值信息，GOG改善了协方差--高斯在rank-1识别率的表现1.3%。

Tangent space mapping：我们在图4（b）中比较了展平流形的效果。当没有应用切线空间映射来构造区域和块高斯的矢量时，“无”显示结果。第一和第二个映射分别显示将映射应用于其中一个块或区域高斯时的结果。当应用第1或第2映射时，rank-1率分别增加16.3％和9.1％。通过应用这两种映射，rank-1率提高了34.7％。从这些结果中，我们可以看出，对高斯的基础几何的考虑是必要的。

Normalization:我们在图4（c）中比较了归一化。由于样本中通常具有高/小值的维度，标准L2范数在性能上大幅降低14.3％。我们还比较了标准化和PCA白化。对于PCA白化，我们改变了PCA的尺寸并报告了最佳结果。应用标准化或白化后，L2范数被标准化。标准化使得rank-1率下降了1.9％，并且PCA白化的改善很小，rank-1率提升1.0％。我们怀疑这些方法可以放大标准偏差较小的尺寸噪声。我们可以肯定建议的规范化是最有效的; 它将rank-1率提高了5.1％。

Pixel features：我们在图4（d）中比较像素特征的组件。当只比较这两个元件时，颜色通道信息RGB比梯度幅度信息更加有效。通过联合这两个部分，实现了比单独使用RGB信息在rank-1率提升12.6%。使用垂直像素位置y同样也可以提升效果，比如，的rank-1率比高4.6%。融合四个颜色空间的GOG描述子比的rank-1率提升7.1%。

4.3. Performance comparison

我们在4个数据集上比较GOG描述子和其他描述子：VIPeR，CUHK01,GRID和PRID450S，分别在两个摄像头视角下包含632，971，250和450个行人的图像。

VIPeR，GRID和PRID450S数据集包含每个行人在一个摄像头下的一张图像，CUHK01数据集包含两张。我们引入single-shot设置的实验。我们随机划分每一个数据集为训练集和测试集（均包含可用行人图像的一半）。在除GRID数据集外的所有数据集中，探针图像的数量和候选集中的图像数相同。对于GRID数据集，我们添加了额外的775张图像，这些图像是不属于250个行人的图像对。我们重复上述实验10次并且获得均值排序得分而且报告了PUR值（评价整个CMC曲线的排序的指标）。

Other meta descriptors: 我们比较GOG描述子和其他元描述符：特征异构自相似性（HASC）,基于Fisher向量的的局部编码描述子（LDFV），二阶均值池化（2AvgP）和GOLD。

HASC由协方差描述子和熵和互信息（EMI）描述子组成。EMI描述子捕获像素特征内的非线性依赖性，并且它与协方差描述符具有相同的维度。GOLD通过均值向量和协方差矩阵描述了一张图像区域。协方差矩阵被对数欧式操作拉直且半矢量化被应用。均值和协方差向量被连接成一个特征向量。2AvgP通过零均值协方差矩阵描述一张图像，而且应用对数欧式操作和半矢量化用来获得一个特征向量。LDFV使用Fisher向量编码像素特征，它编码来自预训练GMM装置的像素特征的差异。通过推荐的设置，我们将GMM部件的数量设置为16。

我们只关注像素特征的编码过程，并且丢弃以上描述子的其他选项，比如GOLD中的空间金字塔。我们提取来自相同的水平条带的每个元描述子作为GOG。提取的7个区域的描述子被连接在一起。像GOG一样，我们使用融合的方法连接元描述子（提取4像素特征向量）成为一个向量。对于归一化，均值去除和L2范数被应用到每一个描述子因为我们发现它通常能改善他们的表现。

我们在表1（a）和（b）中罗列了GOG和其他元描述子的表现。处协方差--协方差以外的所有在（b）中的描述子不是分层描述子，他们都丢弃了区域的局部结构。这些使用单层分布的描述子（Cov, HASC, LDFV, 2AvgP和GOLD）有着相同的表现。另一方面，协方差--协方差明显优于他们。这些结果正式分层分布的有效性。GOG描述子由于协方差--协方差，因为它也包含君之信息，这是在协方差中缺少的。

Descriptors for metric learning:我们将GOG描述子与其他在行人再识别的度量学习中使用的其他描述子进行比较：LOMO，颜色直方图（CH）+LBP和gBiCov。对于这些描述子，我们使用作者提供的源码。代码的默认参数被用在LOMO和gBiCov。Xiong等人使用不同区域的数量来提取28bin颜色直方图和2均匀LBP。他们之间，我们使用75个区域，这是最好的设置。为了公平起见，像GOG相同的归一化和XQDA度量学习被广泛应用。

实验结果如表1（c）中所示。它显示了GOG融合明显优于维数相似的LOMO特征。GOG融合的rank-1识别率在 VIPeR, CUHK01, PRID450s和 GRID数据集中分别提升8.6%，8.6%，5.8%和8.1%。虽然LOMO和CH+LBP使用更多的空间区域和高纬度的像素特征，但是GOG描述子在一定程度上优于这些描述子。当块权重被使用时，只有RGB颜色信息的像素特征的GOGrgb描述子优于较小维度的LOMO特征。GOG描述子的优点在于它的像素特征的均值和协方差信息分层使用，然而LOMO只使用了均值信息。

State-of-the-arts:在表2中，我们比较了最先进的方法并报告了结果，包括中值滤波学习（MLFL），显著性匹配（SalMatch），SCNCD，语义属性表示，Metric Ensemble和LOMO。可以观察到GOG描述子实现了最新的结果， 49.7%,57.8%, 67.3%, 68.4% and 24.7% of rank-1 rate on VIPeR, CUHK01 (M=1), CUHK01 (M=2), PRID450S and GRID dataset, respectively. 由于GOG和LOMO采用的一般的度量学习，很明显我们方法的成功来自于我们一个较好特征描述子的设计。Metric Ensemble使用四种基本的度量，其中每种都在SIFT，颜色直方图+LBP，协方差描述子和CNN上学习。我们的描述子也由于不同描述子的混合。

4.4. Comparison on automatic detected dataset

为了显示GOG描述子在规模大和自动探测的数据集上的一般性，我们比较了CUHK03数据集上的表现。CUHK03数据集包含非重叠视域的1360个行人的13164张图像。数据集中的每张图像在每个视角平均有4.8张图像。再加上人工裁剪行人图像，这个数据集包含的图像利用最先进的探测器进行探测的。因此，显示的变量如未对准，光照和丢失身体不见等被包含在行人图像中。图5显示了一些数据集的行人图像示例。

我们用之前的工作使用一般的设定评价GOG描述子。即，我们划分行人数据集为1160个行人用于训练集且100个行人用于测试集。随机划分重复20次并且报告了平均结果。

表3罗列了与最先进方法的比较结果。GOG融合描述子分别在标记的和自动探测的边界框在rank-1识别率上实现67.3%和65.5%，它明显优于最先进的LOMO特征和深度学习方法。标记和探测之间在rank-1识别率表现下降1.8%，这比LOMO+XQDA的5.95%小3倍多。这可能是因为LOMO特征是从比GOG区域更窄的水平条纹中提取的。 LOMO的高维度部分归因于如此大量的窄水平条带。相比之下，GOG的高维度是由高斯矩阵引起的，高斯矩阵由平均向量和协方差矩阵组成。像素特征的这种尺寸增强不会降低未对准的鲁棒性，因此在人物图像未对准的现实情况下GOG描述符更为可取。

4.5. Running time

GOG描述符在Matlab中用MEX函数实现，用于计算协方差矩阵，并且在 Intel Xeon E5-2687W @3.1GHz CPU的个人电脑上运行。描述子的运行时间在表4中显示。罗列的时间是VIPeR数据集所有图像的平均时间。GOG融合的匹配花销接近于LOMO是因为它们的维数几乎相等。当使用相同的像素特征时，GOG描述符比协方差描述符慢约16倍，并且GOG Fusion比LOMO慢约84倍。但是，它比gBiCov快5.8倍。考虑到需要更多计算成本的其他方法，GOG描述符的运行时间仍然具有吸引力。

5. Conclusions

我们已经提出了一种用于行人再识别的新颖的分层高斯描述符。所提出的描述符模拟每个块和区域层次结构中的像素特征的均值和协方差信息。我们广泛实验的结果表明，所提出的描述符可以实现令人惊讶的高性能，这改善了五个公共数据集的最新性能。在我们未来的工作中，我们计划研究高斯描述符的深层次来描述更多深入了解人物外貌的等级结构。此外，我们还想测试从不同类型的像素特征中提取的GOG描述符的集合，以进一步提高识别精度。