Robust face recognition via sparse representation[J]. Pattern Analysis and Machine Intelligence 论文翻译

最新推荐文章于 2021-03-21 11:11:35 发布

Nimdad

最新推荐文章于 2021-03-21 11:11:35 发布

阅读量2.4k

点赞数 2

分类专栏： AI 文章标签： AI facerecognition

AI 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于稀疏表达的稳定的人脸识别

（源文件中的图片等没在文中上传，大家需要的话可以在这里下载）

摘要 - 我们考虑了在不同的面部表情和光照以及遮挡和伪装的情况下从正面角度自动识别人脸的问题。我们将识别问题视为多个多元线性回归模型之间的分类问题，并认为来自于稀疏信号表示的新理论提供了解决这一问题的关键。基于利用l1范数最小值计算出的稀疏表达，我们提出了用于对象识别的更通用的分类算法（基于图像）。这个新框架为人脸识别中的两个关键问题提供了见解：特征提取和对遮挡的稳健性。对于特征提取，我们发现如果能够正确利用识别问题中的稀疏性，则特征的选择就不那么重要。但是，重要的是特征的数量是否足够大，以及稀疏表达的计算是否正确。根据疏表示理论的预测，只要特征空间的维度超过特定阈值，非常规特征（诸如下采样图像和随机投影之类）能够和传统特征（诸如特征脸和拉普拉斯面之类）表现得同样好。该框架可以统一地处理由于遮挡和损坏引起的错误，因为这些错误往往是在标准（像素）基础来说是稀疏的。稀疏表示理论有助于预测识别算法可以处理多少程度遮挡以及如何选择训练图像才能最大化对遮挡的稳健性。我们对公开可用的数据库进行了广泛的实验，以验证所提出的算法的功效并证实上述的论断。

索引术语 - 面部识别，特征提取，遮挡和损坏，稀疏表达，压缩感知，l1范数最小化，验证和异常值排除。

1.引论

PARSIMONY（吝啬定律，朴素原则）作为推理的指导原则具有丰富的历史。其中一个最着名的实例——模型选择中的最小描述长度原则规定，在模型类的层次结构中，产生最紧凑表示的模型应该优先用于决策任务(例如分类)。一个相关的但更简单的对于高维数据处理中的简约度量的测量方法需要仅依赖于少数观察的模型，选择用于分类或可视化的一小部分特征（例如，稀疏PCA [3]，[4]）。在某种意义上，这种稀疏特征选择方法与[5]和[6]中的支持向量机制（SVM）方法是对偶的（SVM方法选择相关训练示例的一小部分来表征类之间的决策边界）。虽然这些工作只包含了关于推理简约性的文献的一小部分，但它们确实说明一个共同的主题：所有这些方法都使用简约作为准则来从训练数据中选择有限的特征或模型子，而不是直接使用原始训练数据来用于表示或对输入（测试）信号进行分类。

简约性在人类感知中的重要作用同样可以在人类视觉学习中得到证明。研究人员最近发现，无论在低水平还是中等水平的人类视觉[7]，[8]中，视觉通路中的许多神经元对各种特定刺激是具有选择性的，例如颜色，材质，方向，比例，甚至对象图像。鉴于这些神经元在每个视觉阶段都形成基础信号元素的过于完备字典，对于给定输入图像而言，神经元的活跃通常是高度稀疏的。

在统计信号处理领域，利用基本元素或信号原子的超完备字典来计算线性稀疏表达的算法问题，近来引起了人们的兴趣[9]，[10]，[11]，[12] ]。研究发现每当最优表示足够稀疏时，它可以通过凸优化[9]有效地计算，即使在一般情况下这个问题极其困难[13]。这一发现也是大部分人的兴趣所在。所得到的优化问题，类似于统计学中的Lasso[12]，[14]惩罚线性组合中的系数的“1-范数”，而不是直接惩罚非零系数的数量(即“0-范数”)。

在文献中，术语“稀疏”和“表示”已被用于指代许多类似的概念。在本文中，我们将使用术语“稀疏表示”来具体指代输入信号的表达式，作为其中许多系数为零的基本元素的线性组合。在大多数情况下，非零系数的百分比将在0到30％之间变化。然而，在表征我们的算法的分解点时，我们将遇到高达70％非零的情况。

这些工作的最初目标不是推理或分类本身，而是可能使用比Shannon-Nyquist界限更低的采样率[15] 来对信号进行表示和压缩。因此，算法性能是根据表达的稀疏性和对原始信号的保真度来进行测量的。此外，字典中的单个基本元素不具有任何特定的语义含义 - 它们通常是使用某种标准（例如，傅立叶，小波，Curvelet和Gabor）选取的，或者甚至从随机矩阵产生[11]， [15]。然而，最稀疏的表达自然是有判别性的：在所有基础向量子集中，它选择最紧凑地表达输入信号的子集，并且排除所有其他可能但不太紧凑的表达。

在本篇论文中，我们充分利用了稀疏表达的判别性本质来进行分类。不同于使用上面讨论的通用字典，我们将测试样本表示在一个元素本身就是训练样本的过完备字典中。如果每个类别都包含有效的训练样本，那么就有可能将测试样本表示成为只含有来自同一类的训练样本的线性组合。因为仅涉及整个训练数据库的一小部分，这种表示自然就是稀疏的。我们认为，在许多感兴趣的问题中，它实际上就是测试样本在该字典方面的最稀疏线性表示，并且可以通过'1最小化有效地找到。因此，寻找最稀疏的表达在然地区分训练集中存在的各种类。图1以面部识别为例说明了这个简单的想法。稀疏表达还提供了一种简单且效果令人惊讶的方法来排除不是来自训练数据库的无效测试样本：这些样本的最稀疏表达往往涉及许多字典元素，跨越多个类。

相比之下，[16]和[17]中每个类别仅使用一个训练样本的方法面临更加困难的问题，并且通常包含关于测试样本中可能发生的变化类型的更明确的先验知识。

我们使用稀疏性原理进行分类与上面讨论的各种简约原则有很大不同。不同于使用稀疏性来表示相关模型或以后可用于对所有测试样本进行分类的相关特征，这种方法直接使用每个单独测试样本的稀疏表示进行分类，自适应地选择能够提供最紧凑表示的训练样本。所提出的分类器可以被认为是流行分类器的一般化，例如最近邻居（NN）[18]和最近子空间（NS）[19]（即，到跨越来自每个对象类的所有训练样本的子空间的最小距离）。 NN对测试样本的分类是基于单个训练样本的最佳表示来进行，而NS的分类则是根据每个类中的所有训练样本的最佳线性表示来进行。最近的特征线（NFL）算法[20]在这两个极端之间取得平衡，根据一对训练样本的最佳仿射表示来进行分类。我们的方法取得了类似的平衡，但更考虑了所有可能的支持（在每个类中或跨越多个类）并自适应地选择能够表示每个测试样本所需的最少数量的训练样本。

我们将在自动面部识别的背景下激励和研究这种新的分类方法。人脸可以说是基于图像的识别中研究最广泛的对象。这种现象的部分原因是由于人类视觉系统具有卓越的人脸识别能力[21]，另一部分原因在于人脸识别技术有很多众多重要应用[22]。此外，与人脸识别相关的技术问题整体上在物体识别甚至是数据分类领域都很有代表性。相反，稀疏表达和压缩感知理论为自动人脸识别中的两个关键问题提供了新的见解：特征提取的作用和由于遮挡引起的困难。

特征提取的作用。对象图像的哪些低维特征对于分类而言最相关或最有用的问题是面部识别和一般物体识别中的核心问题。大量文献致力于研究用于将高维测试图像投影到低维特征空间中的各种依赖于数据的特征变换：示例包括特征面[23]、Fisherface[24]、Laplacianfaces[25]和大量变体[26]，〔27〕。

我们的方法与NN，NS和NFL之间的关系在补充附录中进行了更深入的探讨，该附录可以在计算机学会数字图书馆的http：//doi.ieeecomputersociety.org/10.1109/TPAMI.2008.79上找到。

由于提出的特征如此多，而对于哪些功能更好或更差的共识很少，从业者缺乏指导原则来决定使用哪些功能。但是，我们提出的

框架内，压缩感知理论意味着特征空间的精确选择不再重要：即使是随机特征中也包含足够的信息来恢复稀疏表达，并正确地对任何测试图像进行分类。真正重要的变成了特征空间的维度要足够大并且稀疏表达的计算要正确。

面对遮挡的稳健性。遮挡是的现实世界人脸识别的巨大障碍[16]，[28]，[29]。这种困难主要是由于遮挡引起的误差的不可预测性：它可能影响图像的任何部分，并且可能在数量上任意大。然而，该误差通常仅破坏图像的一小部分像素，因此误差在各个像素给出的标准基础上也是是稀疏的。当错误具有这种稀疏表示时，可以在我们的框架内统一处理：在错误稀疏的基础上可以被视为一类特殊的训练样本。关于该扩展字典的后备测试图像的后续稀疏表达（训练图像和误差基础）自然地将由于遮挡引起的测试图像的分量与由测试对象的身份引起的分量产生分离（参见图1）。例如）。在这种情况下，当这种训练图像错误基础发生分离时，稀疏表达和压缩感知的理论就会表现出来，并因此显出所得到的识别算法可以容忍多少遮挡。

本文的组织。在第2部分中，我们介绍一个基本的使用稀疏表示的用于分类的一般框架，适用于基于图像的物体识别的一系列问题。我们将讨论为什么稀疏表达可以通过l1反水最小化来计算，以及它如何用在给定样本的确认和分类上。第3节展示了如何应用这种通用分类框架来研究基于图像的人脸识别中的两个重要问题：特征提取和对遮挡的稳健性。在第4节中，我们通过对流行面部数据集进行的大量实验以及与许多其他最先进的面部识别技术的比较来验证所提出的方法。关于我们的方法，NN和NS之间的进一步联系在补充附录中研讨，该附录可以在计算机社会数字图书馆http://doi.ieeecomputersociety.org/ 10.1109 / TPAMI.2008.79上找到。

虽然所提出的方法对于一般的物体识别而言很有趣，但本文的研究和实验结果仅限于人体面部识别。我们将处理照明和表情，但我们没有明确说明对象姿势，也不依赖于脸部的任何3D模型。所提出的算法对于姿势和位移的小变化来说是稳健的，例如，由于配准误差。但是，我们假设在应用算法之前已经执行了面部的检测，裁剪和标准化。

2基于稀疏表达的分类

对象识别的基本问题是使用来自k个不同对象类的标记训练样本来正确地确定新测试样本所属的类。我们将来自第i类的给定ni训练样本排列为矩阵Ai的列：½vi; 1; VVI; 2; ......; vvi; n] 2 I。在面部识别的背景下，我们将确定一个w×h的灰度图，通过堆叠其列来得出的矢量v 2IRmðm¼whÞ。然后，Ai的列是第i个物体的训练面部图像。

2.1将样本作为训练样本的稀疏线性组合进行测试

各种各样的统计，生成或辨别模型已经被提出用来开发Ai的结构进行识别。一种特别简单有效的方法将来自单个类的样本建模为位于线性子空间上。子空间模型具有足够的灵活性，可以捕获实际数据集中的大部分变化，尤其是在人脸识别的背景下更加有效，在这样的背景下，观察到不同光照和表情下的人脸图像位于特殊的低维子空间[24]，[30]，通常称为面子空间。虽然所提出的框架和算法也可以应用于多模态或非线性分布（有关更多详细信息，请参阅补充附录，可在计算机协会数字图书馆http：// doi.ieeecomputersociety.org/10.1109/TPAMI.2008.79上找到）为了便于演示，我们首先假设来自单个类的训练样本确实位于一个子空间上。这是我们将在解决方案中使用的训练样本的唯一前提知识

给定第i个对象类的足够训练样本,来自同一类的任何新的（测试）样本y<Rm将大致位于与对象i相关联的训练样本的线性跨度中:

对于一些标量，

由于测试样本的组成i最初是未知的，我们为整个训练集定义一个新矩阵A作为所有k个对象类的n个训练样本的串联：

然后，y的线性表示可以根据所有训练样本表示为

其中

是一个系数向量，除了那些与第i个类相关联的元素之外，其元素为零。

4.在人脸识别中，我们实际上不需要知道线性结构是由于变化的光照或表达，因为我们不依赖于特定领域的知识，如照明模型[31]来消除训练中的变化。并测试图像。

5.可以参考[32]如何选择训练图像以确保这种属性用于面部识别。在这里，我们假设给出了这样的训练集。

由于向量 x0的元素表示这测试样本y的，因此试图通过求解线性方程组y = Ax 来计算它。但是请注意，表示与一个样本或一个类在一个时间方法中的显著偏离，例如NN和NS。我们稍后会证明说，我们可以从这样的全局表示中获得更具辨别力的分类器。我们将证明此方法优于这些局部方法（NN或NS），不仅用于识别训练集中表示的对象也可以用于拒绝不存在于训练集中存在的任何类别的外围样本。这些优势可以在不增加计算增长的顺序的情况下得出：正如我们将看到的，复杂性在训练集的大小上保持线性。

显然，如果m> n，方程组y= Ax的是超定的，并且通常可以找到正确的x0作为其唯一解。但是，我们将在第3节中看到，在稳健的人脸识别中，系统y = Ax 通常是不确定的，因此，其解决方案并不是唯一的。传统上，通过选择最小的l2范数解决方案来解决这个难题：

虽然这个优化问题可以很容易地解决（通过A的伪逆），但解决方案对于识别测试样本并不是特别有用。如例1中所示，通常是密集的，具有对应于来自许多不同类的训练样本的大的非零元素。为了解决这个难题，我们改为使用以下简单的观测：只使用来自同一类的训练样本就可以充分表示有效的测试样本y 。如果对象类k的数量相当大，则该表达自然是稀疏的。例如，如果k = 20，则所需 x0的元素中只有5％应为非零。恢复的 x0越稀疏，就越容易准确地确定测试样本的身份y。

这促使我们寻y=Ax的最稀疏解，从而解决了以下优化问题：

其中表示“0范数”，它表示向量中非零项的数目。事实上，如果A的列在一般位置，那么对于小于m/2非零的x，只要y=A x是唯一的稀疏解：。然而，在一般情况下，求一个欠定线性方程组是NP-hard的，稀疏解很难达到近似[13]:那是因为，在多数情况下，对于求最稀疏解没有已知的方法比穷尽条目的所有子集更有效。

2.2通过l1范数最小化来求解稀疏解的方案

最近的稀疏表示和压缩感知理论的最新发展[9]，[10]，[11]揭示了

如果x0的解是足够稀疏的，那么l0范数的最小化问题（5）的解就等于下面的l1范数最小化问题的解：

这个问题可以通过标准线性规划方法在多项式时间复杂度内求解[34]。当已知解决方案非常稀疏时，甚至可以使用更有效的方法。例如，同伦算法可以在的时间复杂度内求出含有t个非零值并且在训练集[35]的大小上是线性的解。

图2.通过l1范数最小化求得稀疏表达的几何表示

L1范数的最小化决定了点在多面体（在最低维空间）

的哪个面。其中测试样本向量y是以这个面的顶点的线性组合的形式表示，包含系数x0.

2.2.1几何解释

图2给出了为什么最小化l1范数正确地求解出了足够稀疏解的几何解释（主要是由于[36]）。让Pα表示半径为α的l1球（或十字形多面体）：

在图2中，单位l1范数球P1被映射到多面体，由满足y = Ax且x的l1范数都小于等于1的所有y组成。

在Pα与多面体A（Pα）之间的几何关系是缩放不变的。也就是说，如果我们缩放Pα,它的图像也在乘以A也缩放相同的量。几何上，找到对于（6）最小的l1范数解相当于扩展l1范数球Pα直到多面体A（Pα）首先触及y。α的价值在这种情况恰好是。

现在，假设对于某些稀疏x0， y = Ax0。我们希望知道何时解决（6）能够准确地求得x0。这个问题可以从图2中的几何图形中轻松解决：因为是通过扩展Pα和A（Pα），直到A（Pα）上的一个点触及y时得到的，l1的最小化值必须在P的边界上产生一个点A。

因此， =x0当且仅当该点位于多面体P的边界上。对于图2所示的例子，很容易看出l1范数最小化方法计算出了只包含一个非零元的所有x0。这种等价是成立的，因为P1的所有顶点都映射到P的边界上的点。

通常，如果A将P1的所有t维面都映射到P的面，则多面体P被称为（中心）t-邻域[36]。从上面可以看出，l1范数的最小化（6）正确地计算出了当且仅当P是t-邻域时包含小于等于t+1个非零元的所有x0，

图3 一个有效的测试图像。（a）以12*10个下采样图像作为特征进行识别。测试图像Y 属于受试者1。从算法1计算出的稀疏系数的值与两个对应于两个最大稀疏系数的训练示例一起在右侧绘制。(b)被摄体1的测试图像相对于投影稀疏系数的l1-最小化”的残差r（y）。两个最小残差之间的比值约为1∶8 6。

在这种情况下，它等于l0-最小化值（5）。这种情况非常常见：甚至由随机矩阵给出的多面体P（例如，均匀，高斯，和部分傅立叶（High Fourier）是高度邻域的[15]，都允许通过l1最小化来正确计算稀疏的x0。

遗憾的是，没有已知的算法可以有效地验证给定多面体P的邻域性。最著名的算法是组合，因此，只有当维度m适中时才可行[37]。当m很大时，已知以极大的概率，随机选择的多面体P的邻域对于一些小常数c> 0（见[9]和[36]）在

之间松散地界定的。不严谨地说，只要x0的非零项的数量是维m的一小部分，l1最小化算法就可以计算出x0。

2.2.2处理小密度噪声

到目前为止，我们假设（3）完全成立。由于实际数据是有噪声的，因此可能无法将测试样本完全表示为训练样本的稀疏叠加。可以修改模型（3）以通过写入明确地解释小的可能密集的噪声

其中是一个有界能量的噪声项。通过求解以下稳定的l1最小化问题，稀疏解x0仍然可以近似计算出来：

这个凸优化问题可以通过二阶锥规划[34]有效地解决（参见我们选择的算法的第4节）。的解决方案保证在随机矩阵的集合中近似计算出稀疏解A [38]：有常数和有非常大的可能性，如果且，那么计算的满足

2.3基于稀疏表示的分类

给定来自训练集中的一个类的新测试样本，我们首先通过（6）或（10）计算其稀疏表达。理想情况下，估计中的非零项将全部与单个对象类i中的A列相关联，并且我们可以轻松地将测试样本y 分配给该类。但是，噪声和建模错误可能会导致小部份的非零元会与多个对象类关联（参见图3）。基于全局稀疏表示，可以设计许多可能的分类器来解决这个问题。例如，我们可以简单地将y 分配给具有中单个最大项的对象类。然而，这种启发式方法没有利用与面部识别中的图像相关联的子空间结构。为了更好地利用这种线性结构，我们根据与每个对象的所有训练样本相关联的系数再现的程度来对y进行分类。对于每个类i，让作为选择与第i类相关的系数的特征函数。对于是一个新向量，其唯一的非零项是x中与类i相关的项。仅使用与第i类相关联的系数，可以将给定的测试样本y近似看成。然后，我们基于这些近似对 y进行分类，将其分配给最小化y和之间残差的对象类：

下面的算法1总结了完整的识别过程。我们通过基于[39]和[40]的线性编程的原始对偶算法最小化了'1范数进行实现。

算法1.基于稀疏表示的分类（SRC）

1：输入：训练样本的矩阵含有k类，测试样本，（供选择的容错率> 0）

2：将A的列标准化，计算出单位l2范数。

3：解决l1范数最小化问题：

（或者，解决

4：计算残差其中

5：输出：

图4： l2-minimizer的非稀疏性。（a）来自使用与图3相同的测试图像的l2最小化的系数。计算的解不稀疏，因此用于识别信息较少（大系数不对应于该测试对象的训练图像）。（b）来自对象1的测试图像的残差相对于通过l2最小化获得的系数的投影。两个最小残差之间的比率约为1：1.3。最小残差与对象1无关。

例1（l1-最小化与l2-最小化）

为了说明算法1如何工作，我们随机选择Extended Yale B database中2,414个图像中的一半作为训练集，其余用于测试。在这个例子中，我们对原始192*168到12*10的图像进行二次采样。下采样图像的像素值用作120-D特征 - 在算法中堆叠为矩阵A的列。因此，矩阵A的大小为120*1,207，且方程y = Ax 是欠定方程组。图3a展示出了由算法1针对来自第一对象的测试图像计算的稀疏系数。该图还显示了与两个最大系数对应的特征和原始图像。两个最大系数都与来自对象1的训练样本相关联。图3b示出了关于38个投影系数的残差，i = 1，2， ...， 38。在12*10个下采样图像作为特征的情况下，算法1在Extended Yale B database中总体上实现了92.1％的识别率。（有关在其他特征例如Eigenfaces和Fisherfaces的具体细节和表现以及与其它方法的对比，请参阅第4节。）对于欠定方程组y=Ax，常规的l2范数最小化得到的解通常非常密集，但是最小化'1范数有利于求出稀疏解，并且很有可能在该解足够稀疏时计算出最稀疏的解。为了说明这种对比，图4a示出了由传统的l2范数最小化（4）所给出的相同测试图像的系数，而图4b示出了相对于38个对象的相应残差。由l2范数最小化给出的系数比由l1最小化（图3）给出的系数密集得多，并且主导系数与主题1无关。因此，图4中的最小残差与正确的对象不对应（对象1）。

2.4基于稀疏表示的验证

在对给定的测试样本进行分类之前，我们必须首先确定它是否是来自数据集中某个类的有效样本。检测并且排除无效测试样本或“异常值”的能力对于识别系统在现实世界中应用至关重要。例如，对于面部识别系统，可以提供检测的是不在数据库中的对象的面部图像或者根本不是面部的图像。

基于传统分类器的系统例如NN或者NS，通常使用残差来进行有效性检测和身份确认。也就是说，算法基于对最小残差的大小程度的判断来确定是否接受测试样本。然而，每一个残差都是在不知道训练数据集中的其他对象类的图像的情况下计算的，而且仅测量了测试样本与每个单独类之间的相似性。

在稀疏表达范例中，就来自于所有类的图像而言，系数是在全局状态下计算的。从某种意义上说，它可以利用所有类的联合分布进行验证。我们认为系数是比残差更好的验证统计数据。让我们首先通过一个例子理解这一点。

例2（稀疏系数的浓度）

我们从Google中随机选择一张不相关的图片并将其下采样到12*10 。然后，我们针对Extended Yale B训练数据同样的计算图像的稀疏表达，如示例1中所示。图5a描绘出了所获得的系数，并且图5b描绘出相应的残差。与图3中的有效测试图像的系数相比，我们注意到这里的系数没有集中在任何一个主体上，并且在整个训练集中有广泛地扩展。因此，估算出的稀疏系数的分布包含关于测试图像的有效性的重要信息：有效的测试图像应该具有非零项主要集中在一个对象上的稀疏表达，而无效图像的稀疏稀疏应该广泛的分布在多个对象上。

为了量化这一观察结果，我们定义了系数在数据集中单个类别的集中程度的以下测量方法：

定义1（稀疏度集中指数（SCI））

系数向量的SCI被定义为

对于算法1找到的解，如果，那么测试图像是仅使用来自单个对象的图像来表示的，并且如果，则稀疏系数有可能在所有类上存在。 9我们选择一个门槛，如果

就认为测试图像为有效。否则就认为是无效图像。在算法1的步骤5中，只有当它通过该标准时，才可以选择输出y 的身份。

图5.无效测试图像的示例。（a）使用来自示例1的相同训练数据集的无效测试图像的稀疏系数。测试图像是随机选择的不相关图像。（b）无效测试图像相对于由l1最小化计算出的稀疏表示的投影的残差。两个最小残差的比值为1：1.2。

9. Directly choosing x x to minimize the SCI might produce more concentrated coefficients; however, the SCI is highly nonconvex and difficult to optimize. For valid test images, minimizing the ‘1-norm already produces representations that are well-concentrated on the correct subject class.

与NN或NS不同，这个新规则避免了使用残差进行验证。我们注意到在图5中，即使对于非面部图像，在具有大训练集的，无效测试图像的最小残差也不是那么大。我们的方法不是简单依靠单一统计量来进行有效性验证和身份识别，我们的方法将所需的信息分到了以下几个任务：通过残差来进行身份验证然后通过稀疏系数来进行有效性验证10。从某种意义上说，残差象征着稀疏表达与测试图像的近似程度;在本地化方面，稀疏度集中指数用来横向稀疏表达本身就局部而言的好坏程度。

这种验证方法的一个好处是改进了与多个对象类相似的通用对象的性能。例如，在面部识别中，通用面部可能与数据集中的一些对象非常相似，并且可能具有关于其训练图像的很小的残差。使用残差进行有效性验证更可能导致错误的判断。然而，通用面部图像不太可能通过新的验证规则，因为通用面部图像的的良好表示通常需要来自数据集中的多个对象的图像的参与。因此，新的规则可以更好地判断测试图像是数据集中的一个特定对象的人脸还是一般人脸。在4.7节中，我们将证明新的验证规则优于NN和NS方法，对于给定的错误接受率，验证率提高了10-20％（参见第4节中的图14或补充附录中图18，此附录可在计算机学会数字图书馆http://doi.ieeecomputersociety.org/10.1109/ TPAMI.2008.79上找到）。

3在面部识别中的两个基本问题

在本节中，我们研究了上述一般分类框架在人脸识别中的应用的：1）特征变换的选择，以及2）对破坏，遮挡和伪装的稳定性。

3.1特征提取的作用

在计算机视觉文献中，已经研究了许多用于找到更好地分离较低维空间中的类的投影（通常被称为特征空间）的特征提取方案。一类方法提取整体面部特征，如Eigenfaces[23]，Fisherfaces [24]和Laplacianfaces[25]。另一类方法尝试提取有意义的部分面部特征（例如，眼睛或鼻子周围的斑块）[21]，[41]（对于一些示例参见图6）。传统上，当特征提取与简单分类器（如NN和NS）结合使用时，特征变换的选择被认为是算法成功的关键。这导致了各种日益复杂的特征提取方法的发展，包括非线性和康奈尔特征[42]，[43]。在本节中，我们将重新检查特征提取在新的用于人脸识别的稀疏表示框架中的作用。

特征提取的一个好处（将持续到所提出的稀疏表达算法）是减少了数据维度和计算成本。对于原始面部图像，相应的线性方程y = Ax 非常大。例如，如果面部图像以典型分辨率640×480像素给出，则大小m大约为10五次方。尽管算法1依赖于诸如线性编程之类的可缩放方法，但是将其直接应用于计算这样的高分辨率图像，仍然超出常规计算机的能力。

由于大多数特征变换仅涉及线性运算（或大致如此），因此从图像空间到特征空间的投影可以表示为矩阵，其中。将R应用于（3）的两侧得到

在实际操作中，特征空间的尺寸d的选择通常远小于n。在这种情况下，方程组对未知数来说是欠定的。然而，由于期望的解x0是稀疏的，我们可以通过求解以下降维的l1最小化问题来解出它

其中给定的容错率为。因此，在算法1中，训练图像的矩阵A现在被具有d维特征的矩阵替换；测试图像y被他的特征替换。

（10.我们从经验上发现，这种分离在我们的人脸图像实验中运作良好。但是，可以通过将残差和稀疏度一起使用的方法来设计更好的有效性验证和身份识别规则）

图6.特征提取的例子。（a）原始面部图像。（b）根据四个不同特征（从左到右）的120D表示：特征脸，拉普拉斯面，下采样（12*10像素）图像和随机投影。我们将证明所有这些特征都包含着几乎相同的关于对象身份的信息并且给出差不多一样好的识别性能。（c）眼睛是人脸识别的流行选择部位。在这种情况下，特征矩阵R仅仅是二元蒙版。（a）原始y。（b）120D特征值。（c）眼睛特征。

对于人脸识别的扩展方法，经验研究表明提升特征空间的维度d通常情况下可以提高识别率，只要只要特征RAi的分布不会变得简并[42]。简并性不是l1最小化的问题，因为它仅仅要求在RAi的范围内或附近 - 它不依赖于协方差着在传统的判别分析中是不奇怪的。稳定版的l1-最小化（10）或（17）在统计文献中称为Lasso [14] 11。当所需解决方案稀疏时，它有效地规范了高度欠定的线性回归方程，并且被证明在一些含有噪声的超定情况下[12] 中也一样的连续。

对于我们人脸识别方法的稀疏表达来说，我们想了解特征提取R的选择如何影响l1最小化（17）计算正确的稀疏解x0的能力。根据第2.2.1节给出的“l1 - 最小化”的几何解释，对此的答案取决于相关的新多面体是否有足够的相邻性。很容易就能证明多面体的邻域随着d [11]，[15]的增加而增加。在第4节中，我们的实验结果将验证l1最小化方法，特别是稳定版本的l1最小化方法（17），在使用多种特征恢复面部识别的稀疏表达的能力。这表明在面部识别中流行的大多数数据相关特征（例如，特征脸和拉普拉斯面）确实可以给出高度邻域的多面体P。

对高维多面体几何的进一步分析已经揭示了一个有些令人惊讶的现象：如果解x0足够稀疏，然后以极大的概率，它可以通过从任何足够大数量d个的线性测量的最小化来正确地计算出来。更确切地说，如果 x0具有t<<n非零元，并且具有充分的可能性：

随机线性测量足以使l1最小化（17）计算出正确的稀疏解x0 [44] 12。这种令人惊讶的现象被称为“维度的祝福”[15]，[46]。随机特征可以被视为与经典面部特征（例如特征脸或Fisherfaces）的不够结构化的对应特征。因此，我们称高斯随机矩生成的线性投影为随机人脸13.

定义2（随机人脸）。

考虑变换矩阵，其元素独立地从零正常分布中采样，并且每行被归一化为单位长度。 R的行向量可以被视为中的d个随机人脸。

随机人脸的一个主要优点是它们生成效率极高，因为转换R独立于训练数据集。这种优势对于面部识别系统可能很重要，尤其是在我们可能无法获得所有可能的对象的完整数据库以预先计算数据相关变换（例如特征脸），或者数据库中的对象可能随时间而变化的情况下。在这些情况下，不需要重新计算随机变换R。

只要可以计算出正确的稀疏解x0，不管实际使用的特征是什么，算法1将始终给出相同的分类结果。因此，当特征d的维数超过上述界限（18）时，我们应该期望具有不同特征的算法1的识别性能快速收敛，并且“最优”特征变换的选择不再是关键的问题：甚至随机投影或者下采样图像都可能与任何其他精心选择的特征表现一样好。这将通过第4节中的实验结果得到证实。

3.2对遮挡或损坏的稳健性

在许多实际的人脸识别场景中，测试图像可能被部分损坏或遮挡。在这种情况下，应将上述线性模型（3）修改为

（11.传统上，Lasso解决方案被定义为的最小化器。这里，可以看作是与约束相关的拉格朗日乘数的倒数。对于每一个，都有这样两个问题有相同的解。然而，可以被解释为像素噪声水平并且在问题的各种实例中被计算出来，而不能。我们应该将Lasso优化问题与LARS算法区分开来，LARS算法可以用非常稀疏的优化器来解决一些Lasso实例[35] 。

12.严格地说，当直接从x0计算随机测量值时，该阈值成立，例如。然而，我们的实验大致符合（18）给出的界限。在某些超完备的基础A上，x0是稀疏的，我们还观察到随机测量同样也在[45]中有所研究。即使给出了正确恢复的条件，边界还是不如上面的（18）那样尖锐。

13.随机投影先前作为多种聚类问题的一般维数减少方法[47]有所研究，[48]，[49]，以及学习非线性流形[50]，[51]。）

其中是表示错误的向量，其中个元素是非零的。 e0模型的非零元素，是y中被破坏或遮挡的像素。对于不同的测试图像，损坏的位置可能不同，并且计算机不知道他们的位置。这些误差可能具有任意的大小，因此不能忽略或使用针对小噪声设计的技术（例如第2.2.2节中给出的技术）进行处理。

编码理论的基本原理[52]是测量中的冗余对于检测和纠正严重错误至关重要。在对象识别中出现冗余，因为图像像素的数量通常远大于生成图像的对象的数量。在这种情况下，即使一部分像素被遮挡完全破坏，仍然可以基于剩余像素进行识别。另一方面，前一节中讨论的特征提取方案将丢弃有助于补偿遮挡的有用信息。在中情况下，没有任何表达比原始图像更冗余，更稳健或更含有丰富的信息。因此，在处理遮挡和损坏时，我们始终使用尽可能高的分辨率，只有在原始图像的分辨率太高而无法处理的情况下，才会执行下采样或特征提取。

当然，如果没有有效的计算工具来利用冗余数据中编码的信息，冗余将毫无用处。在破坏的原始图像中直接利用冗余的困难使得研究人员转而关注空间局部性作为有效人脸识别的指导原则。仅从一小部分图像像素计算的局部特征明显不太可能像整体特征一样被遮挡破坏。在人脸识别中，诸如ICA [53]和LNMF [54]之类的方法通过自适应地基于局部集中来选择过滤器利用这种原理。局部二元模式[55]和Gabor小波[56]表现出相似的属性，因为它们也是从局部图像的部分区域计算的。相关方法将图像划分为固定区域并计算每个区域的特征[16]，[57]。然而，请注意，投射到局部集中基础会转变结构域的问题，而不是避免阻塞。原始像素上的错误变成在转换域中的错误，甚至可能变得不那么局部。因此，特征提取在实现空间局部性中的作用就变得有争议了，因为没有基础或特征在空间上比原始图像像素本身更具局部性。事实上，最常用的基于特征的做法是基于随机抽样单个像素的基本方法[28]，有时结合统计技术，如多变量修剪[29]。现在，让我们展示如何扩展所提出的稀疏表示分类框架以处理遮挡。

现在，让我们研究一下已经提出的稀疏表达分类框架如何拓展来处理遮挡问题。让我们假设损坏的像素是图像的相对小的部分。与向量x0一样，误差向量e0具有稀疏的14非零项。由于y0=Ax0，我们可以（19）表达为：

14.这里的稀疏不意味着特别少。事实上，正如我们的实验将要证明的一样，被遮挡项部分有可能非常重要。这主要取决于遮挡的类型，我们的的方法可以处理高达百分比和百分比的遮挡图像。

这里，，所以方程组总是欠定的，并且没有的唯一解。但是，从上面关于x0和e0的稀疏性的讨论中，正确产生最多只有个非零元。因此，我们可能希望恢复w0作为方程组的最稀疏解。实际上，如果矩阵B处于一般位置，只要对于具有小于非零元，就是唯一的最稀疏解。因此，如果遮挡物e覆盖小于个像素（约为图像大小的50%），最稀疏的解对于来说是真正的发生器，。

更一般地，可以假设损坏误差e0具有关于字典的稀疏表示。也就是说，对于一些稀疏向量，。在这里，我们选择了特殊情况？m，因为e0被认为是相对于自然像素坐标是稀疏的。如果误差e0相对于另一个基础字典集更稀疏，例如傅里叶或哈尔，我们可以简单地通过将Ae（而不是身份I）附加到A来重新定义矩阵B，而是寻找以下公式最稀疏的解W0：

通过这种方式，相同的公式可以处理更多类的（稀疏）图像损坏。和以前一样，我们尝试从解决以下扩展的l1范数 - 最小化问题中计算出最稀疏的解：

即在算法1中，我们现在用扩展矩阵替换图像矩阵A并且将x替换为。

很明显，是否可以从上述l1最小化中计算出稀疏解w0取决于新多面体的邻域。该多面体包含着来自训练图像字典既A和身份矩阵I的顶点，如图7所示。（8）中给出的界限如果y是对象i的图像，如果

则l1最小化（22）不能保证正确计算出。

更一般的说，d>>ni, 所以（8）意味着我们认为仍能实现完美重建的最大部分遮挡率为33％。这个界限得到了我们的实验结果的证实，见图12。

为了确切地知道算法可以容忍多大程度的遮挡，我们需要关于多面体P的邻域的更准确的信息，而不仅仅是由（8）给出的松散上界。例如，我们想知道一组给定的训练图像，它可以处理的最大（最差可能）遮挡量是多少。虽然用于精确计算多面体邻域的最著名的算法本质上是组合的，但是通过限制搜索B的零空间和l1范数球到t面的随机子集之间的交叉点，可以获得更紧密的上界。（详见[37]）。我们将使用这种技术来估计我们实验中考虑的所有训练数据集的邻域性。

图7：带有遮挡的人脸识别。矩阵的列向量张成了一个高维的多面体。该多面体的每个顶点是训练图像或仅照亮单个像素的图像（对应于身份子矩阵I）。给定测试图像，解决l1最小化问题决定性地定位测试图像落在多面体的哪个方面。 l1最小化找到具有最少可能顶点的面。只有该方面的顶点有助于表达矩阵，所有其他顶点都没有关。

根据经验，我们发现稳定版本（10）仅在我们不考虑模型中的遮挡或损坏时才需要（例如上一节中讨论的特征提取的情况）。当我们使用明确说明严重错误时，使用的在精确约束的拓展l1范数最小化（22）在中等噪声下已经稳定。

一旦稀疏解被计算出来，设置恢复受干扰或损坏补偿的受试者的干净图像。为了确认对象，我们稍微修改了算法1中的残差，计算它与恢复的图像yr：

4实验验证

在本节中，我们展示了基于可公开获得的人脸识别数据库的实验，这些数据既可用于证明所提出的分类算法的有效性，也可用于验证前面部分的阐述。我们将首先检查特征提取在我们的框架中的作用，比较各种特征空间和特征维度的性能，并与几个流行的分类器进行比较。然后，我们将证明所提出的算法对损坏和遮挡的稳健性。最后，我们演示（使用ROC曲线）稀疏性作为验证测试图像的方法的有效性，并检查如何选择训练集以最大化对遮挡的稳健性。

4.1特征提取和分类方法

我们使用几个传统的整体面部特征来测试我们的SRC算法，即特征脸，拉普拉斯曲面和Fisherfaces，并将它们的性能与两个非常规特征进行比较：随机面和下采样图像。我们将算法与三种经典算法进行比较，即上一节讨论的NN和NS，以及线性SVM。在本节中，我们在各种低维特征空间中使用稳定版本的SRC，在容错利率的情况下解决降低的优化问题（17）。算法1的简化（特征空间）版本应用于Matlab之后每个测试图像在典型的3GHz 计算机上上只需几秒钟。

4.1.1扩展的耶鲁B数据库

扩展的耶鲁B数据库由38个个体的2,414个正面图像组成[58]。被裁减和规范化后的192*168大小的人脸图像是在在各种实验室控制的照明条件下拍摄的 [59]。对于每个受试者，我们随机选择一半图像用于训练（即，每个受试者约32个图像），另一半用于测试。随机选择训练集可确保我们的结果和结论不依赖于训练数据的任何特殊选择。

我们使用特征空间尺寸30,56,120和504计算识别率。这些数字分别对应于1 / 32,1 / 24,1 / 16和1/8的下采样率。注意，Fisherfaces是与其他特征不同，因为在这种情况下，有效Fisherfaces的最大数量比k类[24] 的数量少。因此，Fisherfaces的识别结果仅在我们的实验中的尺寸30处可用。

NS算法的子空间维数为9，这在有关处理仅有光照变化的面部图像的文献中被大多数人认同。图8显示了利用四种不同的分类器：SRC， NN，NS和SVM时各种特征的识别性能。

所有120D特征空间的SRC识别率在92.1％和95.6％之间，504D随机面的最大识别率为98.1％。 NN，NS和SVM的最大识别率分别为90.7％，94.1％和97.7％。含有所有识别率的表格可在补充附录中找到，该附录可在计算机协会数字图书馆http://doi.ieeecomputersociety.org/ 10.1109 / TPAMI.2008.79上找到。图8中所示的识别率与文献中报道的一致，尽管一些报告在不同的数据库或不同的训练子集上。例如，He et al。 [25]报道使用特征脸在33D时的最佳识别率为75％，在耶鲁人脸数据库上使用28D的Laplacianfaces的识别率为89％，两种情况均使用NN算法。在[32]中，Lee等人在耶鲁B数据库中使用NS算法实现的准确率为95.4％。

图8.在Extended Yale B database的识别率。上图为各种特征变换和分类器。（a）SRC（我们的方法）。（b）NN。（c）NS。（d）SVM（线性内核）。

（15.由于人脸图像的子空间结构，线性SVM已经适合于从不同的面分离特征。使用线性内核（与更复杂的非线性变换相反）也可以直接比较在同一特征空间中工作的不同算法。然而，除了特征变换之外，通过使用非线性内核可以实现更好的性能。

16.当特征脸和拉普拉斯曲面的计算达到Matlab的内存极限时，我们在504维时降低了维度。尽管我们的算法可以在同一台计算机上更进一步得运行，但504维已经足够我们得出所有的结论。

17.子空间尺寸明显大于或小于9维最终会导致性能下降。

18.我们还尝试用Lasso替换SRC算法中的约束l1最小化算法。对于选择得合适的归一化来说，结果是相似的。例如，将下采样面作为特征， =1,000时，在维度为30,56,120和504的条件下，识别率分别为73.7％，86.2％，91.9％，97.5％（在图8中的结果的1％以内）

4.1.2 AR数据库

AR数据库包含超过4,000张126人的正面图像。对于每个人，在两个独立的场景中拍摄了26张照片[60]。与扩展的耶鲁B数据库相比，这些图像包括更多的面部变化，包括光照变化，表情和面部伪装。在实验中，我们选择了由50名男性受试者和50名女性受试者组成的数据集的子集。对于每个受试者，选择仅有照明变化和表情的14个图像：来自场景1的用于训练的七个图像，以及来自用于测试的场景2的另外七个图像。图像的尺寸被裁减为165*120并转换为灰度图。我们选择了四个特征空间尺寸：30,54,130和540，它们分别对应于下采样比率1 / 24,1 / 18,1 / 12和1/6。因为受试者的数量是100，所以Fisherfaces的结果仅在维度为30和54的特征空间处给出。

该数据库比耶鲁数据库更具挑战性，因为受试者的数量现在是100，但是每个受试者的训练图像减少到7个：四个具有不同光照条件的没有表情的人脸图像和三个具有不同表情的人脸图像。对于NS，由于每个受试者的训练图像的数量是7，因此面部子空间的任何估计都不能具有高于7的维度。在这种情况下，我们选择所有的子空间对于NS算法都保持在7维。

图9显示了该实验的识别率。在540D的特征空间中，SRC的识别率达到92.0％至94.7％。另一方面，NN和NS取得的最佳成绩分别为89.7％和90.3％。 SVM在该数据集上略胜一筹，最高识别率达到95.7％。但是，SVM的性能相关与特征空间的变化更大- 使用随机特征的识别率仅为88.8％。补充附录可以在计算机协会数字图书馆http://doi.ieeecomputersociety.org/ 10.1109 / TPAMI.2008.79上找到，其中包含详细数值结果表。

根据Extended Yale B数据库和AR数据库的结果，我们得出以下结论：

对于Extended Yale B数据库和AR数据库来说，SRC和SVM的最佳性能始终超过两个经典方法NN和NS在每个单独特征维度上的最佳性能。更具体地说，Extended Yale B数据库中SRC的最佳识别率为98.1％，而SVM为97.7％，NS为94.0％，NN为90.7％; AR数据库中SRC的最佳比率为94.7％，而SVM为95.7％，NS为90.3％，NN为89.7％。
其他三个分类器的性能很大程度上取决于“最佳”特征的选择 Fisherfaces在较低特征空间维度的表现最佳，而拉普拉斯面在较高特征空间维度的表现更佳。使用NN和SVM，随着特征空间的维数增加，各种特征的性能不会收敛。
结果证实了压缩感知理论：（18）表明个随机线性测量应该足以在Yale B数据库中进行稀疏计算，而个随机线性测量应该足以满足AR数据库中的稀疏计算[44]。除了这些维度之外，各种特征的结合“l1最小化”收敛算法，在传统和非常规特征（例如，随机面和下采样图像）中表现相似。当特征维度很大时，单个随机投影表现最佳（Yale数据库的识别率为98.1％，AR为94.7％）。

图9. AR数据库的识别率。上图分别为各种特征变换和分类器。（a）SRC（我们的方法）。（b）NN。（c）NS。（d）SVM（线性内核）。

4.2部分面部特征

在人类和计算机视觉文献中已经广泛研究了部分特征在恢复人脸特征方面的有效性，例如见[21]和[41]。作为第二组实验，我们在以下三个部分面部特征上测试我们的算法：鼻子，右眼，嘴巴和下巴。我们使用Extended Yale B数据库进行实验，使用相同的训练和测试集，如4.1.1节所述。有关提取的特征的典型示例，请参见图10。

图10利用部分面部特征进行的人脸识别。（a）面部特征样例（b）SRC,NN,NS,SVM在Extend Yale B数据库上的识别率。

对于三个特征中的每一个，维度d都大于训练样本的数量（n = 1207），并且要求解的线性方程组（16）变得超定。然而，稀疏近似解x仍然可以通过解决“ 放松的”l1最小化问题（17）（这里）得到。图10中的结果再次表明，所提出的SRC算法实现了比NN，NS和SVM更好的识别率。这些实验还显示了所提算法在处理超过10四次方维特征时的可扩展性。

4.3存在随机像素损坏的识别实验

在这个实验中，我们测试了稳定版的SRC算法，它使用Extended Yale B人脸据库解决了扩展的“l1 - 最小化问题”（22）。我们选择用于训练的子集1和2（717个图像，正常到中等照明条件）和用于测试的子集3（453个图像，更极端的照明条件）。没有遮挡，这是一个相对容易识别的问题。这种选择是有意的，以便排除遮挡的影响。图像大小调整为96* 84像素，在这种情况下矩阵大小是8,064* 8,761。在我们的数据集中，我们已经估计多面体邻域大约是1,185（使用的是 [37]中给出的方法），这表明可以实现高达13.3％（最差可能）的遮挡的情况下能够完美的重建。

我们破坏了每个测试图像人力比例的像素区域，并用来自均匀分布的独立且相同分布的样本替换它们的值。每个测试图像损坏的像素区域是随机选择的，并且算法不知道区域的位置。损坏像素区域的百分比在0％和90％任意分布。图11a，11b，11c和11d示出了几个示例测试图像。对于人眼来说，如果图像有超过50％的破环，那损坏的图像（图11a第二和第三行）几乎不可识别为面部图像;确定他们的身份似乎是不可能的。然而，即使在这种极端情况下，SRC也能正确地恢复受试者的身份。

图11.随机损坏下的识别。（a）测试来自Extended Yale B的图像y，存在随机程度损坏。顶行：30％的像素已损坏。中间行：50％损坏。底行：70％损坏。（b）估计的错误。（c）估计的稀疏系数x1。（d）重建的图像yr。 SRC正确识别所有三个损坏的脸部图像。（e）各种算法在整个损坏范围内的识别率。 SRC（红色曲线）明显优于其他，几乎完美地表现出高达60％的随机损坏（见下表）。

我们定量地将我们的方法与视觉文献中四种流行的人脸识别技术进行比较。 [23] Principal Component Analysis（PCA）方法对遮挡不稳定。有许多变化使PCA对损坏或不完整的数据具有稳健性，并且一些已经应用于稳定的面部识别，例如，[29]。我们稍后将在更现实的条件下讨论他们的算法与我们的算法的表现。在这里，我们使用基础PCA方法来比较提供标标准.21 其余三种技术旨在对遮挡更加稳定。独立分量分析（Independent Component Analysis（ICA））架构I [53]试图将训练集表示为统计独立基础图像的线性组合。局部非负矩阵分解（LNMF）[54]将训练集近似为基础图像的加法组合，计算时使用稀疏基础字典集的偏移量.22最后，为了证明改进的稳健性实际上是由于使用了l1-范数，我们与最小二乘法进行比较，首先将测试图像投影到由所有面部图像跨越的子空间，然后执行NS。

图11e绘制了SRC及其五个竞争算法就损坏处理层面的识别性能。我们看到该算法明显优于其他算法。从0％到50％的破坏，SRC正确地对所有受试者进行分类。损坏率为50％时，其他人都没有达到73％以上的识别率，而提出的SRC算法达到了100％。即使遮挡率为70％，识别率仍为90.7％。

这大大超过了确保算法能够正常处理的最坏情况损坏（13.3％）的理论界限。显然，最坏情况分析对随机损坏来说过于保守。

（19.调整图像大小的唯一原因是能够在典型的PC上运行Matlab内存大小内的所有实验。该算法依赖于线性编程，并且可以在图像大小上进行缩放。

20.在上是均匀的,其中是最大可能像素值。

21.在[58]之后，我们在使用PCA之前，将图像像素标准化为具有零均值和单位方差。

22.对于PCA，ICA和LNMF，选择基础组分的数量以在{100; 200; 300; 400; 500; 600}范围内提供最佳测试性能。）

4.4在随机块状遮挡下的人脸识别

我们接下来尝试逐渐增加连续遮挡的程度，从0%到50%。我们将受测图像的随机正方形区域替换为不相关的图像，如图12所示。遮挡区域的选择是随机的，并且计算机不知道遮挡区域会出现在那个地方。由于遮挡的不可预测的位置，选择固定的面部特征或图像块的方法（例如，[16]和[57]）在这里不太可能成功。图2中的前两行12a，12b，12c和12d示出了处理30％遮挡时算法1的两个代表性结果。图12a是被遮挡的图像。在第二行中，整个脸部中心都被遮挡了，即使对人类来说，这也是一项艰巨的识别任务。图12b展示出了估计误差的大小^ e1。请注意，^ ee1不仅可以补偿由于狒狒引起的遮挡，还可以补偿由鼻子下的阴影引起的线性子空间模型的逆反。图12c绘制了估计的系数向量^ x1。红色部分是对应于测试图像的真实类别的系数。在两个示例中，估计的系数确实是稀疏的并且仅具有用于训练同一人的图像的大幅度。在这两种情况下，SRC算法都正确地对被遮挡的图像进行分类。对于此数据集，我们的Matlab在PowerMac G5上每个测试图像的实现需要90秒。

图12e中的图表显示了所有六种算法的识别率。对于所有遮挡水平，SRC再次明显优于其他五种方法。在处理高达30％的遮挡，算法1执行几乎完美，正确识别超过98％的测试对象。即使是在平均40％的遮挡下，才只有9.7％的对象被错误分类。与随机像素损坏相比，连续遮挡对于算法来说肯定是更难识别的错误类型。但请注意，该算法不会需要任何有关损坏或遮挡性质的知识。在4.6节中，我们将看到如何使用遮挡是连续的先验知识来定制算法并大大提高识别性能。

这一结果对于在人脸识别中使用整体与局部特征的争论具有有趣的意义。[22]。有人提出，ICA I和LNMF对于遮挡来说都具有稳健性：由于它们的基础字典集是集中的，因此遮挡只会破坏系数的一小部分。相反，如果使用l2最小化（正交投影）”来表示根据诸如训练图像本身的整体基础的被遮挡图像，则所有系数都可能被破坏（如图12中的第三行）。这里的含义是问题不是选择根据整体或局部字典集来表示测试图像，而是如何计算出表达。正确利用冗余和稀疏性是纠错和识别稳健性的关键。提取局部或不相交的特征只能减少冗余，导致较差的鲁棒性。

图12.在不同级别的连续遮挡下的识别。左上两行：（a）来自Extended Yale B数据库的30％被遮挡的测试面图像。（b）估计的稀疏误差，^ e1。（c）估计的稀疏系数，^ x1，红色（较暗）条目对应于同一人的训练图像。（d）重建的图像yr， SRC正确识别两个被遮挡的面部。为了进行比较，底行显示相同的测试用例，结果由最小二乘法给出（超定l2 - 最小化）。（e）各种算法在整个遮挡范围内的识别率。 SRC（红色曲线）明显优于其他人，几乎完美地识别出了高达30％的连续遮挡图像（见下表）。

4.5对于伪装的识别

我们利用AR人脸图像数据库的子集来测试SRC处理真实可能的恶意遮挡的能力。所选择的子集包括100个受测对象，50个男性和50个女性的1,399个图像（每个人14个图像，除了损坏的图像w-027-14.bmp）。为了训练，我们使用799张具有不同的正面视图和不同的面部表情的图像（每个受试者大约8张），给出一个大小为4,980*5,779的矩阵B。我们估计邻域大约是577，表明可能在高达11.6％的遮挡情况下完美重建受试者。我们使用Matlab在PowerMac G5应用此算法上每个测试图像需要大约75秒。

我们考虑使用两个分别的200个图像的测试集。第一个测试集包含戴着太阳镜的受试者的图像，其中大约20％的图像被遮挡。图1a显示了该测试集的成功示例。请注意，^ e1可以补偿图像边缘的小范围偏差，以及太阳镜造成的遮挡。的第二个测试集考虑到包含佩戴围巾的受试者的图像，其遮挡率约占图像的40％。由于遮挡水平是由的邻居给出的最大最坏情况遮挡的三倍以上，我们的方法不太可能在这个结合中成功。图13a示出了一种这样的失败案例。请注意，最大系数对应于一个胡子男人的图像，他的嘴部区域类似于围巾。

图13中左侧的表将SRC与前一节中描述的其他五种算法进行了比较。在太阳镜遮挡的人脸图像上，SRC的识别率达到87％，比最接近的其他算法高出17％。对于围巾遮挡，其识别率为59.5％，是最接近的其他算法的识别率的两倍，但是表现仍然很差。这证实了尽管该算法对于由训练集的邻域确定的击穿点之间的任意遮挡是具有稳定性的，但是超过该点，它对于来自不同个体的类似的训练图像的遮挡区域是敏感的。因为遮挡量超过了这个分解点，所以需要额外的假设，这些假设可能是连续的，从而获得更高的识别性能。

4.6通过块分区提高识别性

到目前为止，我们还没有利用以下这样的事实：在许多真正的识别场景中，遮挡落在某些图像像素上，这些图像像素在之前是未知的，但已知是这些像素是连续的。在人脸识别中利用这些信息的一种传统方法（在[57]等中探讨）是将图像分割成块并独立处理每个块。然后聚合各个块的结果，例如通过投票，同时丢弃被认为被遮挡的块（使用例如在2.4节中提出的异常值排除准则）。

图13.（a）-（d）分区方案以解决连续性伪装。顶行可视化的展示出了SRC失败的处理整个图像（整体基础字典集）一个例子，其中，两个最大的系数对应于一个留胡子的男人和一个尖叫的女人，两个图像的嘴部区域类似于阻塞的围巾。如果已知遮挡是连续的，则可以将图像分割成多个较小的块，对每个块应用SRC算法，然后通过投票来聚合结果。第二行可视化了这种基于分区的方案如何在同一测试图像上工作，但是却可以达到正确的识别。（a）被围巾遮挡的测试图像。（b）估计的稀疏误差。（c）估计稀疏系数^ x1。（d）重建图像。（e）AR数据库的识别率表。该表显示了两种类型的遮挡的所有算法的性能。SRC，其整体图像版本（右上）和分区版本（右下），达到最高的识别率。

这种方法的主要困难是由于遮挡的区域无法获知，所以很难确定图片的分区;虽然仅几个块可能被完全遮挡，但是剩余块中的一些或全部可能被部分遮挡。因此，在这种方案中，仍然需要每个块内的稳定性技术。

我们将每个训练图像分成大小为a *b的L个块，产生一组矩阵，其中。我们类似地将测试图像y划分为。我们把受测图像的第l个块表示为稀疏线性组合的第1块训练图像，加上稀疏的错误：。我们可以通过l1最小化来解决问题：

我们在每个块中应用算法1中的分类器，然后通过投票合并结果。图13说明了这种方案。

(23.也可以通过（15）拒绝被遮挡的块。我们发现这并没有显着提高识别率。

24.从我们自己的应用和实验中，我们发现他们的方法并没有在更极端的照明条件下取得良好表现。)

我们验证了该方案在AR数据库中对利用太阳镜或围巾的伪装的人脸图像的效果。我们将图像划分为八个（4*2）大小为20* 30像素的块。分区将围巾的伪装图像的识别率从59.5％提高到93.5％，并且将对墨镜遮挡的识别率从87.0％提高到97.5％。这种性能超过了迄今为止AR数据集[29]的最佳已知结果。这项工作获得84％太阳镜伪装的识别率和93％的围巾伪装的识别率，在50个受试对象上使用精密的随机采样技术。还值得注意的是[16]，旨在识别每个受试者只有一个训练样本的遮挡面孔。在AR数据库中，该方法实现了80％的较低组合识别率.

4.7拒绝无效的测试图像

我们接下来展示了稀疏度与拒绝无效测试图像的相关性，这种相关性与是否有遮挡无关。我们基于Extended Yale B数据库上的稀疏度集中指数（14）测试异常值拒绝规则（15），使用子集1和2进行训练，使用子集3进行测试，如前所述。我们通过用不相关的图像替换每个测试图像的随机选择的块来再次模拟不同级别的遮挡（10％，30％和50％）。但是，在本实验中，我们仅包括训练集中一半的受试者。因此，测试集中的一半受试者对于我们的算法来说是全新的。我们通过扫描通过[0,1]中的一系列阈值t来测试系统是否能够确定给定的测试对象是否在训练数据库中，生成图14中的接收器操作特性（ROC）曲线。为了进行比较，我们还通过对测试图像（特征）与最邻近的训练图像（特征）之间，分别在PCA，ICA和LNMF特征空间内的欧氏距离进行阈值处理来考虑异常值抑制。这些曲线也在图14中有所展示。请注意，简单的规则（15）几乎完美地排除了10％和30％的遮挡。在50％的遮挡率下，它仍然明显优于其他三种算法，并且是四种算法中唯一一种性能明显优于偶然性的算法。补充附录可以在计算机社会数字图书馆http://doi.ieeecomputersociety.org/10.1109/ TPAMI.2008.79上找到，它包含着使用Eigenfaces在AR数据库中的更多验证结果，再次证明了ROC的显着改进。

4.8设计稳健性的训练集

设计识别系统时的一个重要考虑因素是选择训练图像的数量，以及拍摄它们的条件（光照，表情，视点等）。训练图像应该足够广泛，以跨越测试集中可能出现的条件：从模式识别的角度来看，它们应该是“足够的”。例如，李等人。 [59]显示如何选择最少的代表性图像以很好地近似每个面的照明锥。第2节中讨论的邻居概念为训练集的“稳定性”提供了不同的定量度量：算法可以容忍的最坏情况遮挡量直接取决于相关多面体的相邻程度。最坏的情况与视觉识别有关，因为遮挡对象可能与其他训练类别非常相似。但是，如果遮挡是随机的并且与训练图像不相关，如4.3节所述，平均行为也可能是有意义的。

图14.异常值排斥的ROC曲线。垂直轴：正确率。横轴：误报率。 SRC生成实心红色曲线，基于（15）拒绝异常值。基于SCI的验证和SRC分类对于高达30％的闭塞几乎完美地执行。（a）没有遮挡（b）10％的遮挡（c）30%（d）50%

图15.稳健的训练集设计。（a）不同的照明左上角：Extended Yale B的四个子集，包含越来越极端的光照条件。左下：对于每个子集，估计多面体的相邻性。（b）不同的表达。右上角：AR数据库中的四个面部表情。右下：估计不同的在从不同的表达对中获取训练集。

事实上，这两个问题，充分性和稳健性是互补的。图15a示出了Extended Yale B数据库的四个子集的估计的邻域。请注意最高的邻域约为1,330，是用子集4实现的，其中的图片是最极端的照明条件。图15b示出了具有不同面部表情的AR数据库的子集的分解点。该数据集包含四种面部表情，正常表情，快乐，愤怒和尖叫，如图15b所示。我们从所有表达式对生成训练集，并计算每个相应多面体的邻域。最强大的训练集是通过冷漠和快乐以及快乐和尖叫组合实现的，而最不稳健的训练来自冷漠和生气的组合。请注意，中性和愤怒的图像在外观上非常相似，而（例如）开心和尖叫非常不同。

因此，对于变化的光照（图15a）和表达（图15b），具有更大范围的的图像变化的训练集会对更大的遮挡具有稳健性。设计一个允许在各种条件下识别的训练集不会妨碍我们的算法；事实上，它对算法有所帮助。但是，训练集不应包含太多类似的图像，如图15b中的中性+愤怒示例。在信号表达的语言中，训练图像应该形成不连贯的字典[9]。

5结论和讨论

在本文中，我们在理论和实验上都认为，利用稀疏性对于高维数据（如人脸图像）的高性能分类至关重要。通过适当利用稀疏性，特征的选择与使用的特征（在我们的面部识别示例中，大约100个足以使差异可以忽略不计）相比变得不那么重要。此外，可以在同一分类框架内统一且稳健地处理遮挡和损坏。我们可以通过没有特殊工程的简单算法，对严重遮挡或损坏的图像实现惊人的识别性能。

对于未来研究的一个有趣的问题是，除了识别之外，该框架是否对于对象检测来说也是是有用的。在[61]的工作中已经注意到稀疏性在检测中有一定的用处，并且最近在[62]中对此也进行了探讨。我们相信，在强大的物体检测和识别中，稀疏性的全部潜力尚未被发现。从实际角度来看，将算法扩展到较少约束的条件，特别是对象姿势的变化的情况下。对遮挡的稳健性允许算法容忍小的姿势变化或不对准。此外，在补充附录中，我们讨论了我们的算法适应非线性训练分布的能力，这一附录可以在计算机社会数字图书馆http://doi.ieeecomputersociety.org/ 10.1109 / TPAMI.2008.79上找到。然而，在变化的姿势下直接表示面部图像的分布所需的训练样本的数量可能非常大。姿势除外，例如仅使用正面训练图像，将需要将特征匹配技术或非线性变形模型集成到测试图像的稀疏表示的计算中。原则上，这样做仍然是未来工作的重要方向。

致谢

本文的作者们向Harry Shum博士，Xiaoou Tang博士以及微软亚洲研究院的许多其他人在2006年秋季访问期间进行有关人脸识别的有益和内容丰富的讨论的所有人致谢。他们还感谢Harm Derksen教授和密歇根大学Michael Wakin教授，伊利诺伊大学Robert Fossum教授和Yoav Sharon教授就多面体几何和稀疏表示提出建议和讨论。这项工作得到了Grants ARO MURI W911NF-06-1-0076，美国国家科学基金会（NSF）CAREER IIS-0347456，NSF CRS-EHS0509151，NSF CCF-TF-0514955，ONR YIP N00014-05-10633的部分支持， NSF ECCS07-01676和NSF IIS 07-03756。