[学习笔记·翻译稿] Video Based Face Recognition by Using Discriminatively Learned Convex Models

最新推荐文章于 2022-07-21 12:29:39 发布

江南蜡笔小新

最新推荐文章于 2022-07-21 12:29:39 发布

阅读量605

点赞数

分类专栏： AI 文章标签：人脸识别计算机视觉算法神经网络机器学习

本文链接：https://blog.csdn.net/ftimes/article/details/113618608

版权

AI 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

机翻+手动调整
仅供学习之用
PDF已上传至蓝奏云：https://wwi.lanzous.com/iAcIyl9vthc

在这里插入图片描述
Video Based Face Recognition by Using Discriminatively
Learned Convex Models
Hakan Cevikalp , Golara Ghorban Dordinejad
Abstract
大多数基于图像集的人脸识别方法对每个人使用一个生成式学习模型，该模型通过忽略图库集
中的其他人而独立学习。与这些方法相比，本文介绍了一种新的方法，即在尽可能远离gallery中其
他人的图像的同时，寻找最适合个人面部图像的判别凸模型。我们学习图像集仿射壳和凸壳的判别
凸模型。在测试过程中，利用图像集中的距离集，有效地计算出从图像到图像集的距离。该方法在
精度和测试时间上都明显优于其他使用生成学习凸模型的方法，并且在8个测试数据集中的6个获得
了最新的结果。尤其是在具有挑战性的PaSC、COX、IJB-C和ESOGU视频数据集上具有精度提高的重要
意义。

引言
人脸识别是一个重要的计算机视觉问题，在各个领域有着广泛的应用。最初，单个图像被用于
人脸识别，但最近，基于集合的方法开始主导该领域，主要是因为人脸图像集可以对个体外观的可
变性进行建模。对于基于集合的人脸识别，图库和查询集都是以图像集而不是单个图像的形式给出
的。图像可以从视频帧以及多个无序的观测中收集。分类系统必须返回其库集与给定查询集最相似
的个人。使用图像集的人脸识别方法也更实用，因为它们通常不需要受试者的任何合作。然而，尽
管如此，传统分类器如支持向量机(SVMs)、分类树、k近邻分类器等不能直接使用，这可以被认为是
基于集合的方法的一个主要限制。
基于集合的人脸识别方法的有效性取决于两个重要因素: 用于逼近人脸图像集的模型和用于衡
量这些模型之间相似性的距离度量。能够逼近人脸图像集的模型有很多。Yamaguchi等(1998)利用线
性子空间对图像集进行拟合，并利用子空间之间的标准角度来度量图像集之间的距离，这是基于集
合识别的一项开创性工作。另一种基于图像集的分类方法是将每个样本集视为格拉斯曼流形中的一
个点。Hamm和Lee(2008)在固定维线性子空间上使用了格拉斯曼判别分析方法。(2009)提出了核格拉
斯曼距离来比较图像集。Wang et al.(2012)使用协方差矩阵近似图像集，而(Wang et al. 2018)使
用混合高斯逼近图像集。最近，使用对称正定(SPD)矩阵流形来建模图像集，并通过使用不同的黎曼
度量如仿射不变度量或对数欧几里得度量来计算这些流形之间的相似性(Huang et al. 2015, 2018a,
b)。
Cevikalp和Triggs (2010)， Cevikalp等人(2019)引入了仿射和凸壳来近似图像集，并使用这
些模型之间的几何距离来度量相似性。这种方法有许多重要的优点:仿射/凸包模型比线性子空间能
更好地定位图像集区域;由于凸性，模型之间的距离计算相对容易，使用鲁棒凸模型可以减少异常值
的影响。Hu等人(2012)和Yang等人(2013)提出了仿射和凸壳的不同变体。其中，Hu等人(2012)的稀
疏逼近最近邻点(SANP)加强了用于仿射Hulls组合的样本的稀疏性。首先利用集合的仿射壳对两个集
合的sanp进行逼近，然后利用集合图像对它们进行稀疏逼近，同时搜索它们之间的最近点。类似地，
Yang等人(2013)使用正则化仿射Hulls模型，在计算图像集之间的最小距离时，需要最小化仿射Hulls
组合系数的l2 -范数。Wang et al.(2017)提出了一种在不同类的仿射Hulls重叠时学习更紧凑仿射
Hulls的方法。最近，新的扩展(Wu et al. 2013;这些方法使用了所谓的协作表示仿射和凸包模型。
与传统的对每个图像集使用独立的仿射包和凸包的方法不同，这些方法通过使用单一的仿射包或凸
包来近似所有的库集，并利用仅从单个库集计算得到的重构残差来标记查询集。在基于图像集的识
别中，使用稀疏模型的其他代表性方法还包括Cui等(2014)、Chen等(2013)、Chen等(2013)。大多数
上述方法都有内核化版本，可用于近似的非线性人脸模型。
最近，Hayat等人（2015年）、Hayat等人（2014a）提出了一个深度学习框架来估计图像集的非
线性几何结构。他们为每个图像集训练一个自适应的深层网络模板来学习类特定模型，然后根据这
些预先学习的类特定模型计算出的最小重建误差对查询集进行分类。Hayat et al.（2014），Hayat
et al.（2017）使用线性SVM分类器来近似查询集和图库集之间的距离。以类似的方式，Cevikalp和
Yavuz（2017）将线性SVM分类器替换为更合适的多面体圆锥分类器，该分类器可以返回多面体接受
区域以进行基于集合的识别。最后，还有一些相关的基于人脸图像集的人脸验证和识别方法（Liu et
al.2017；Yang et al.2017；Rao et al.2017；Liu et al.2014；Xie and Zisserman 2018；Shi and
Jain 2019；Deng et al.2019）。其中，Liu等人（2014）使用多任务联合稀疏表示算法进行基于视
频的验证。Liu et al.（2017）和Rao et al.（2017）使用基于深度神经网络的方法在图像集中找
到高质量的有区别的人脸图像帧，以提高人脸识别系统的准确性和速度。同样，Yang等人（2017）
将CNN网络和聚合模块结合起来，通过使用高质量的图像帧进行基于视频的人脸识别，创建一个区分
图像集模型。Xie和Zisserman（2018）提出了一种深度神经网络方法，该方法通过使用集合内人脸
描述符的加权平均值来学习计算表示集合中整个图像的单个特征描述符。Shi和Jain（2019）介绍了
一种使用高斯分布将单个图像建模为概率分布的方法。该公式还允许近似高斯分布的图像集，因此
该方法可用于基于集合的人脸识别。最后，Deng等人（2019）提出了一种基于深度神经网络的方法
ArcFace，它最大化了角空间中的裕度。提取出人脸图像的CNN特征后，用提取的CNN特征对人脸图像
集进行近似处理，然后利用计算出的CNN特征之间的余弦距离来比较图像集进行识别。
在该方法中，我们通过判别仿射/凸包来逼近人脸图像集，这些包最适合于个人的图像集，但同
时又尽可能远离图库中其他人的图像集。所提出的模型可以被视为使用生成式学习和区分式学习的
混合模型:它使用生成式学习，因为其目标是找到一个最接近正类样本的模型。它还使用了区分式学
习，因为我们强制逼近的模型远离负样本。区别分类方法(Hayat et al. 2014, 2017;Cevikalp and
Yavuz 2017)需要使用大规模数据集在线训练分类器，与之相反，在本文的方法中，非区分式模型的
学习是离线实现的。一旦学习了判别模型，查询集的分类需要一些简单的矩阵乘法，可以非常高效
地完成。因此,该方法是非常快的其他区别的方法相比在试验证明差事。本文的其余部分组织如下:
第2节对生成学习的仿射/凸包模型作了简要的回顾。我们在第3节中介绍拟议的方法。第4节总结了
实验结果。最后，在第5节中给出我们的结论。
基于生成学习仿射/凸凸包的图像集分类
设人脸图像样本为，其中，c = 1，…，C，索引C图像集(个体)，i = 1，… ，Cevikalp
和Triggs(2010)用凸模型(仿射或凸包)逼近图像集，并将查询图像集分配给最接近图库集的类。
2.1 生成试仿射Hulls 模型
该方法忽略其他类别的人脸图像，用其样本的仿射外壳逼近图像集:
其中，为仿射组合系数。仿射模型基本上将一个人的特征样本向量的任何仿射组合都视
为该人的有效人脸特征样本。由于仿射模型没有指定类样本在仿射子空间中的位置，这通常给数据
一个非常松散的近似值。每个类的仿射Hull模型学习与使用其他类样本生成图集。
为了计算两个仿射壳体之间的距离，我们首先需要在仿射壳体上选择一个参考点。该参考点可
以是某一集合的人脸图像样本之一，也可以是该集合的平均人脸图像，设参考点为:则集合μc关于
该点的仿射模型为:
这里，是仿射子空间所跨越方向的正交基，是确定子空间内点坐标的自由参数向量，用基
表示，l是基向量的个数。数值上，通过对应用奇异值分解得到。给
定两个不相交的仿射外壳和，它们上给出仿射外壳之间距离的最近点可以
通过求解以下优化问题来找到：
定义和，这可以写成一个标准最小二乘问题，
它的解法是，所以，仿射Hulls之间的距离变成
在的正交投影矩阵的联合跨度方向中包含两个子空间,(l−P)是投影矩阵的正交
的补。
2.2 生成式凸Hull 模型
集合的凸包定义为包含其样本的最小凸集。当完全仿射包意味着变形限制在(1)只有积极系
数,它代表了最小凸集,即集的凸包,
集的凸包表示比仿射逼近更严格。两个凸壳之间的距离可以通过使用任何标准的QP求解器来求
解以下约束凸二次优化(QP)问题，
在仿射壳的情况下，这可以被视为一种生成式学习，因为在计算两个类的凸壳之间的距离时，
我们忽略了galleries中的其他集合。
提出的方法
在提出的方法中，我们的目标是找到每个图像集的判别和紧凑的仿射和凸包模型，使这些模型
最适合自己的图像集的样本，而远离属于不同人的其他集合的图像样本。上一节中解释的生成学习
模型通过只使用属于某个特定的感兴趣的人的图像样本来为图库中的每个人学习一个独立的模型。
但是，我们必须考虑到galleries中的所有数据来学习每个人的判别模型，因此我们需要更高效的算
法来完成这项任务。在下面，我们解释寻找判别仿射和凸包模型的程序。
3.1 区分式的仿射Hull
假设我们得到了一个属于特定类c的图像集。我们将这个类表示为正类，将图库中所有剩余的类
表示为负类。
如前所述，一个仿射壳(或一个仿射子空间)由基向量和参考点，我们选择其为正类均值，
.
在不失一般性的前提下，我们可以考虑一个标准正交基向量集，。任意样本x到这个
仿射壳的距离可以通过以下方法计算:
其中是正类仿射壳上的正交投影算子，是正交补的投影矩阵。值得注意
的是，正交投影算子都是对称度量和幂等的。
我们的目标是找到最适合正类样本，但同时又尽可能远离其他图像集的负类样本的仿射壳。因
此，我们必须尽量减小正类样本到仿射壳体的距离，最大限度地增大负类样本到仿射壳体的距离。
所有图片样品的中心位置,使用 ,这可以写成下面的优化问题,
其中，n+(−)表示正(负)类样本的个数，其中，数据来源元数据是用户必须设置的参数，它根据
正类样本的距离调整负类样本的距离权值。为了解决这个优化问题，我们首先引入下面给出的拉格
朗日函数。
在这里, 表示执行标准正交约束的拉格朗日因子基向量。KKT最优条件产量为
我们定义一个矩阵S+ 为
需要注意的是，矩阵S+是两个协方差矩阵的差，因此是对称的。对于足够小的精确值，它也是
正(半)确定的。通过将这个定义插入(11)，我们得到如下关系，
这是一个典型的特征分解问题，其解是对称正(半)定矩阵S+的特征向量。需要注意的是，该解
是一个全局最小值，如果S+是严格正的，则该解也是唯一的全局最小值。
对库中的每个类重复这个过程，我们得到了每个类的判别仿射Hulls模型。在线测试时，利用(8)
计算查询图像样本到每个仿射壳的距离，并计算k个最接近样本的距离均值。然后，将查询集分配给
产生最小平均距离的类。我们不使用所有查询图像样本的距离，而是使用那些位于查询集接近其他
库集的关键区域的距离。通过交叉验证确定k的最佳值。
最后,应该注意的是,这种方法非常不同于线性判别分析方法提取一个独特的嵌入空间内使用类
和类间散布矩阵。在我们的设置中，为每个人提取了C个不同的仿射子空间，并且根据到仿射子空间
的最近距离做出决定。但是，LDA只为所有类返回一个公共子空间模型。因此，由于没有类特定的模
型，如何计算查询集和图库集之间的相似性(或距离)是不清楚的。最简单的方法是将LDA作为特征提
取阶段，然后利用基于图像集的分类器将查询集分配给一个图库成员。在这种情况下，最终的准确
率将取决于使用的图像集分类器的成功和提取的LDA特征的质量。
3.2 区分式凸模型
与仿射壳相比，凸壳具有数量级巨大的多个面，因此它们不能像仿射壳那样直接存储。因此，
从一个样本库中找出一个样本的距离是非常昂贵的。这个问题的一个解决方案可能是通过使用线性
支持向量机分类器找到将一个类的凸包从剩余的类样本中最佳分离的超平面，因为线性支持向量机
返回正类和负类凸包之间的最佳分离超平面（Bennett and Bredensteiner 2000）。然后，通过模
拟点积计算从查询样本到分离超平面的距离来近似分布。然而，当图库中的类的凸壳不能被图1所示
的线性超平面分离时，这个解决方案将不起作用。如图所示，不可能用线性超平面将中间红色类样
本的凸包与其他类分开。另一方面，多面体圆锥分类器（PCC）（Cevikalp and Triggs 2017；Gasimov
and Ozturk 2006；Cimen等人，2018）可用于此类情况。与线性SVM分类器不同，PCC分类器可以返
回紧密的多面体接受区域，将正类样本包围起来。这些紧凑的多面体接受域可以用来近似类的判别
凸壳，并且计算从查询样本到多面体接受区域的距离非常快，因为它需要像线性支持向量机那样简
单的点积。
我们使用Cevikalp和Triggs（2017）的扩展多面体圆锥分类器（EPCC）来近似galleries中每个
类别的discrimi 原生凸包。一个正类的扩展多面体圆锥函数可以写成，
其中是测试点，是圆锥曲线，是一个权重向量，b+是一个偏移量，| u |=
（| u1 |，…，| ud |）表示分量方向的模量是相应的权重向量。我们将锥顶点设置为正数
类样本的平均值，如Cevikalp和Triggs（2017）中所述。要找到将返回多面体接受区域的分类器，
我们需要为库中的每个类解决以下QP问题：
λ是正规化的权重其值为w +, s > 0是一个用户提供抑制向量增加γ+, b +固定为1。采用随
机梯度法求解该优化问题。在SG算法中，我们将epoch的数量设置为250，每个epoch可以看到所有的
训练数据样本。我们解决优化问题(15)为每一个类c的galleries和计算EPCC分类器参数，。
然后,我们计算出距离查询图像样本的多面验收区域每个类通过使用以下函数,包括简单点激励节
点,
需要注意的是，如果查询图像样本位于EPCC分类器返回的紧凑多面体接受区域，则(16)返回的距离
分数可以为负。在仿射壳的情况下，我们计算k个最接近每个galleries类的查询样本距离，并计算
它们的平均值。然后，我们将查询集分配给产生最小距离的类，也就是说，我们使用以下
决策函数，
在线决策过程是非常快的，甚至比线性仿射外壳还快，因为我们需要实现两个简单的点积。对
于鉴别仿射Hulls，生成鉴别Hulls的特征向量的数量大多大于2。因此，与使用紧的多面体接受区域
近似的鉴别凸壳相比，该方法的决策过程要慢得多。
值得注意的是（Cevikalp和Yavuz 2017）也使用了EPCC分类器进行基于集合的识别。然而，他
们的设置完全不同于我们在这里提议的。Cevikalp和Yavuz（2017）和Hayat等人（2017）都使用区
分分类器来分离图像集。但是，他们训练将查询集图像从galleries图像中分离出来，这需要在测试
期间在线训练二进制分类器。因此，这两种方法的测试时间对于实时应用来说非常长，特别是对于
我们实验中给出的大规模数据集。相比之下，我们的学习过程是离线完成的，我们只是在在线测试
中实现简单的点积。
实验
我们使用判别仿射/凸壳对8个用于基于图像集的人脸识别和验证的数据集进行了判别AH和判别
CH的测试。这些数据集包括 Point-and-Shoot人脸识别挑战赛（PaSC）（Beverridge等人，2013年）、
YouTube Celebrities（Kim等人，2008年）、COX（Huang等人，2015年）、ESOGU（Yalcin等人，2015
年））、FaceScrub（Ng等人（2014年））、IARPA Janus Benchmark A（IJB-A）（Klare等人，2015
年）、IJBC（Maze等人，2018年）和YouTube Faces（Wolf等人，2011年）的数据集。图像采用局部
二值模式（LBP）特征或卷积神经网络（CNN）特征表示。我们将所提出的方法与使用生成学习仿射/
凸壳的其他方法以及文献中的一些不同模型进行了比较，包括凸壳方法（CHISD）（Cevikalp和Triggs
2010）、仿射壳方法（AHISD）（Cevikalp和Triggs 2010）、二进制EPCC（Cevikalp和Yavuz 2017）、
SANP（Hu等人，2012年），互子空间方法（MSM）（Yam aguchi等人，1998），正则化最近点（RNP）
（Yang等人，2013年），SPD流形（Huang等人（2018a）），流形流形距离（MMD）（Wang等人，2008
年），协同正则化最近点（CRNP）（Wu等，2013年），自正则非负自适应距离度量学习（SRN-ADML）
（Mian等人，2013）和协方差判别学习（CDL）（Wang等人，2012）。对于SPD流形，如Huang等人（2018a）
所述，使用集合的协方差矩阵及其均值来创建SPD矩阵，并且我们使用Log-Euclidean度量来度量它
们之间的相似性。
4.1 PaSC 数据集的人脸验证实验
对于人脸验证实验，我们使用了 Point-and-Shoot人脸识别挑战（PaSC）数据集（Beverridge
等人，2013年）。PaSC的数据集包括2802段265人进行简单动作的视频。在两种不同的设置下录制视
频。在我们的实验中，我们使用了Huang等人（2018b）提供的面部图像的深层CNN特征。在PaSC上，
有两个视频人脸验证实验：控制到控制和手持到手持实验。在这两个实验中，目标集和查询集包含
相同的视频集。通过与视频中声明的目标进行比较，验证该任务与该视频关联的身份。由于相同的
1401个视频同时作为目标集和查询集，“相同视频”比较被排除在Huang等人（2018b）中，我们的
结果与Huang等人（2018b）中报告的结果直接可比，因为我们使用相同的CNN功能和测试协议。
为了测试方法，我们遵循与Huang et al.（2018b）中使用的相同的测试设置：我们首先计算成对人脸视频之间
的相似性并创建相似性矩阵。然后，利用该矩阵生成ROC曲线，当误接收率为0.01时，我们报告了验证率。此
外，我们还报告了从精确召回曲线中获得的平均精确度（mAP）分数。对于区分性AH方法，我们将最近查询
样本数k设置为20，对于判别性CH方法，我们将其设置为10。结果如表1所示，它们支持我们的主张，即区分
模型的性能显著优于生成学习模型。更具体地说，所提出的判别AH方法在控制数据集上比生成学习仿射壳提
高了8%左右，在手持数据集上提高了12%左右。同样地，所提出的判别CH方法在控制数据集和手持数据集上
分别提高了5%和11%左右。此外，所提出的判别式CH方法在所有测试方法中达到了最好的精确度，它显著优
于DAN（discretive aggregations network）方法（Rao et al.2017）和CERMLEG（Huang et al.2018b）使用我们
在测试中使用的相同CNN特征的精确度。据我们所知，我们的结果是文献中关于PaSC数据集的最佳精度。
4.2 基于Set 的人脸识别实验
4.2.1 YouTube Celebrities 数据集实验
YouTube名人数据集包含了从YouTube收集的47位名人的1910段视频。每个序列包含不同数量的低分辨率帧。
数据集不提供来自视频。因此，我们使用半自动标注工具手动裁剪人脸，并将其调整为40×40的灰度图像。然
后提取LBP特色。我们按照Zhu et al.（2014）、Wang和Chen（2009）的相同方案，随机选择9个视频（3个用
于培训，6个用于测试）进行10次实验。
分类率和测试时间的平均值如表2所示。对于区分仿射和凸壳方法，最近查询样本数k都设置为7。这两种方法
都明显优于使用生成仿射/凸壳的经典方法，但其精度略落后于达到最高精度的二进制EPCC。然而，就测试时
间而言，所提出的方法是非常有效的方法。例如，所提出的判别CH方法比二进制EPCC快约63倍，而其精度
仅落后于二进制EPCC 0.9%。
4.2.2 对ESOGU-285 人脸视频数据集进行实验
ESOGU-285数据库是一个视频数据集，由285人组成，每个人有8个视频。视频是在室内环境中拍摄的，分为
四个不同的场景。在2280个视频序列中，总帧数为764006。就帧的总数而言，这是本研究中使用的最大的数
据集。所有的图像首先被对齐，然后被裁剪，这样只有面区域是可见的。我们同时使用了图像样本的LBP和
CNN特征。为了提取CNN的特征，我们使用了最近最先进的ResNet-101架构(He et al. 2016)。对于CNN网络的
训练，我们使用95%的gallery集图像作为训练，剩下的5%进行验证。这个网络输出2048维CNN特征。在训练
期间，我们没有使用随机权值启动ResNet-101网络。相反，网络是从ImageNet (ILSVRC 2012)数据集训练的初
始模型中进行微调的。
在我们的实验中，我们使用第一个会话视频来形成galleries集，第二个会话视频用于测试，就像Cevikalp和
Yavuz(2017)一样。实验结果见表3。由于内存问题，我们无法实现CRNP，而表中的“OOM”表示“内存不足”问
题。对于仿射包壳和凸包壳，最接近的查询样本k的数量都被设为95。从表中可以看出，本文提出的方法在LBP
和CNN特征上都取得了最佳的准确率，显著优于其他测试方法。CDL方法获得的CNN特征的准确率仅次于我
们提出的判别CH方法。在LBP特征和CNNs特征上，我们提出的判别性AH方法比线性AHISD方法分别高出
19.8%和3.9%。同样，鉴别CH法比线性凿法的LBPs高12.4%，CNNs高5.9%。这些结果清楚地表明了区分模式
优于生成模式。此外，据我们所知，提出的判别CH方法的准确率为89.0%，是文献中关于该数据集的最佳准
确率。
在测试时间方面，所提出的方法也是最有效的方法。另一种判别分类器二进制EPCC对LBP特征的准确率排名
第三;但与所提出的方法相比，速度非常慢。更准确地说，对于LBP特征，我们的鉴别CH方法大约比二进制EPCC
快89倍，对于CNN特征快298倍。同样地，对于LBPs，本文提出的判别AH方法比二进制EPCC方法快约68倍，
对于CNN特征则快214倍。
值得一提的是，当我们使用ResNet-101 CNN feature时，所有生成方法的性能都比LBP feature有了显著的提高。
这是很自然的，因为无论我们如何训练生成方法，有区别的类成员信息已经包含在学习的CNN特征中了。但
是，在区分方法上却没有改进。事实上，与LBP特征相比，它们的精度更低，这是出乎意料的。这清楚地表
明，经典的基于深度神经网络的方法可以提高单幅图像训练的精度，用于基于集合的识别，其中的图像有不
同的姿态，包括完全的左/右轮廓视图和正面视图。为了达到这一目的，我们必须用图像集来训练这类网络，
并强制使同一组不同位姿图像特征之间的距离最小(例如用三联体损失函数代替普通的softmax损失函数)，以
获得更高的精度。事实上，最近的研究也支持了我们的发现。例如，Wen等人(2016)表明，在人脸识别的背景
下，使用中心损失来最小化相同人脸类示例的特征之间的距离，大大提高了精确度，而传统的最大损失则没
有存在。
4.2.3 COX 视频对视频数据集的实验
COX Faces数据集包含1000个行走个体的3000个视频序列(Huang et al. 2015)。当受试者沿着预先设计的s形路线
行走时，用三个固定的摄像机拍摄视频。对于这个数据库，我们使用从32×40直方图均衡化的人脸图像中提取
的LBP特征。由于图像尺寸较小，我们没有提取CNN的特征。每个人有3个图像集。我们从每个人中选一组进
行测试，剩下的两组作为图库。对于第二次和第三次试验，我们从之前没有用于测试的集合中选择了测试集。
分类率是这三个试验的平均值，如表4所示。判别仿射法和凸包法的最接近查询样本k设为20。类似于ESOGU
数据集,pro 再次提出方法明显优于使用生成仿射和凸壳的方法。该方法比线性AHISD方法提高了11.6%的精
度，比线性凿方法提高了30.3%的精度。最好的精度是通过拟议中的歧视CH方法在所有测试方法,它大大执行
歧视二进制EPCC Cevikalp和•法(2017)。精度的改进是approxi 伴侣11%,这是相当大的。在测试时间方面，所
提出的方法也是最有效的方法。例如,提出区别的CH方法approxi 交配100次速度比歧视二进制EPCC的方法。
4.2.4 FaceScrub 数据集实验
FaceScrub数据集(Ng et al. 2014)包括530名名人的面部图像。它是通过在互联网上自动搜索公众人物的基础上
检测人脸，然后手动检查和清理结果而创建的。在数据集中，有265名男性和265名女性名人的面部图像。我
们手动检查人脸图像和清洗非人脸图像，因为仍然有一些注释错误。因此，我们有530位名人的67437张人脸
图像，平均每人127张(最小39张，最大201张)，适合形成图像集。人脸图像多为高分辨率正面人脸图像，我们
将其大小调整为128×128。部分经过处理的人脸图像样本如图2所示。然后提取这些图像的CNN特征。为了训
练CNN网络，我们使用了ResNet-101架构和ESOGU人脸视频实验相同的设置。
在我们的测试中,我们首先将数据集分为4等于折叠,我们使用一个折叠的图像,galleries和剩下的图像用于测试
(即530图像集用作galleries和剩下的3×530 = 1590图像集作为测试集)。每次重复4次，最终的准确率是每次试验
所得结果的平均值。对于仿射包壳和凸包壳，最接近的查询样本k的数量都被设为7。比较方法的精度和检验
次数见表5。从表中可以看出，所有测试方法的准确率都在100%左右。所提出的方法再次达到最高的精度。
除了MSM方法外，本文提出的方法比所有测试方法都要快，MSM方法在测试时间方面是最有效的方法。
4.2.5 IJB-A 数据集实验
IARPA Janus Benchmark A (IJB-A)数据集(Klare et al. 2015)是图像和视频的混合物，其中包含来自500名受试者
的5712幅图像和2085幅视频。从视频中提取的帧总数为20,414。每个受试者平均由11.4张图片和4.2个视频组成。
所有的图像和视频都是在无约束的环境下获得的，具有完全的姿态变化和不同的图像质量，这使得该数据集
是一个非常具有挑战性的基准。我们在1:N人脸识别的“搜索”协议上测试了我们提出的方法。有10个随机训练
和测试分组。每个分割提供了图库，探针和训练集。图库组由112或113名受试者组成，探针组有167名受试者
(与图库不同的有55名受试者)。训练集完全被忽略了。应该注意的是,许多galleries类只包含一个图像,因此我们
不能测试方法使用仿射Hulls壳自仿射模型需要至少两个图像集。在类似的方式,社民党歧管,CDL不能使用自协
方差矩阵计算至少需要两个脸图像样本集。因此,我们只能利用凸壳模型测试的方法。
在本文中，我们使用Cao等人（2018）的作者提供的特征，使用具有梦块的深层神经网络。该网络通过增加残
差的映射函数将给定人脸图像的特征向量映射到正面人脸。与文献中的其他方法不同，该方法在特征空间而
不是图像空间中实现了前向化。根据Liu et al.（2015）的align协议，所有图像与地面真面相对齐，然后送入深
度网络。对齐后，面部位于图像的中心，图像大小重新调整为178×218。从基于MS-Celeb-1M训练的ResNet-18
中提取了256维的特征。由于我们使用相同的特征集和协议，我们的方法可直接与Cao等人（2018）的DREAM
网络相比较。
对于基于模板的人脸识别，IJB-A数据集使用标准的评价指标。搜索协议评估指标是基于排序精度的。分类率
是探针搜索的百分比，它在k个排序结果中正确地在设置的图库中找到探针的图库伙伴。累积匹配特性(CMC)
报告给定等级内的这个百分比。表6给出了使用此度量的测试方法的准确性。我们还报告了最近在IJB-A数据
集上测试的方法。由于它们使用不同的特性，不能直接进行比较，但评估方案是相同的。图3显示了精确度作
为从1到10的不同等级的函数。从结果中可以看出，与Cao等人(2018)的DREAM网络相比，本文提出的判别CH
方法在所有等级上都获得了最佳的准确率，准确率有所提高。改进不是很大，因为许多图库和探测集只包含
一个图像。该方法也最近执行许多先进的方法在表的底部。
4.2.6 IJB-C 数据集实验
Maze等人(2018)的IARPA Janus Benchmark C (IJB-C)评估数据集是IJB-A数据集的扩展。这种混合媒体基于集
合的数据集包含了3531个独特的工程在无约束子环境。它包含31,334张静态图像，平均每个受试者约6张图像
和117,542个视频帧，平均每个视频约33帧。与之前一样，我们在1:N混合识别协议上评估了我们提出的方法。
对于1:N混合识别协议，每个图库大约有1800个模板，探针大约有20000个模板。由于数据集包含两个不相交
的库集，我们报告两个库集的平均性能。由于许多图库和探测集只包含一幅图像，因此本文提出的判别AH方
法不能直接使用。为了克服这个问题，我们创建了另一幅图像，方法是对包含单个图像的集合的现有图像的
CNN特性进行轻微的扰动。为此，我们在CNN特征中加入了高斯噪声。然后，我们使用这些图库和探测集的
两个CNN特征来提取仿射Hulls模型。
我们利用Cao等人（2018）、Xie and Zisserman（2018）、Deng et al.（2019）提出的深度神经网络提取集合图
像的CNN特征。所有这些网络都是通过使用VGGFace2数据集（Cao等人。我们分别对CNN的3种功能进行测
试。在这些方法中，Cao等人（2018）在VGGFace2数据集上训练ResNet-50 CNN网络。然后，他们使用这个训
练过的网络来提取IJB-C数据集中的CNN特征。对于基于集合的识别，他们平均化集合中人脸的CNN特征，然
后得到的平均（平均）向量是L2标准化的。利用这些归一化的均值向量对图像集进行建模，并根据均值向量
之间的余弦距离来度量集合之间的相似度。Xie和Zisserman（2018）中介绍的多列网络方法学习使用集合内人
脸描述符的加权平均值来计算表示集合中所有图像的单个特征描述符。一旦为每个图像集提取出具有代表性
的特征描述符，就可以通过计算这些代表性特征描述符之间的距离来分配查询集的标签。Deng等人（2019）
提出的弧面方法旨在最大化角空间中面类之间的余量。在基于集合的识别中，用集合均值逼近图像集合，并
利用代表图像集合的平均特征向量之间的余弦相似度计算集合相似度。表7给出了这3种CNN特征的计算精度。
如结果所示，对于所有与IJB-A数据集结果相似的情况，所提出的方法提高了在IJB-C数据集上比较的最新方
法的精确度。对于ResNet-50cnn特征和多列CNN特征，本文提出的判别AH方法获得了最佳的精度，而对于
arfacecnn特征，提出的判别CH方法获得了最佳的精度。特别是，所提出的判别CH方法对弧面CNN特征的准确
度是该数据集上报道的最佳精度，并成为最新的精度。这些结果是预期的，因为最近的深度神经网络工作方
法（Cao等人，2018年；Xie和Zisserman，2018年；Deng等人，2019年）使用非常简单的模型来近似图像集（中
心平均值如Cao等人（2018年），Deng等人，或加权平均值，如多列网络（Xie和Zisserman，2018年），然而，
在所提出的方法中，我们使用更复杂的模型来近似集合图像。结果，获得了较好的精度。
4.2.7 对YouTube Faces 数据集进行实验
YouTube faces数据集（Wolf等人，2011）包含1595个不同人群的3425个视频。每人的视频数量在1到6之间变
化。平均每个主题有2.15个视频。这个数据集非常具有挑战性，因为有些视频的质量非常差，而且还有其他因
素，如遮挡、姿势/照明变化和运动模糊，使得分类更加困难。图4给出了一些视频的示例帧。因为我们需要至
少两个集合（一个集合用于galleries，一个集合用于查询），所以我们必须在实验期间从数据集中移除只包含
一个视频的类。
我们再次使用了LBP特征和使用ResNet-101架构提取的CNN特征。对于CNN网络培训，除了galleries设置的图
像外，我们还使用了不包括在galleries中的人的图像，因为他们只包含一个视频。在之前的实验中，95%的图
像被分配为训练，剩下的5%在CNN网络训练期间用于验证。结果见表8。与以前一样，所提出的判别方法的
性能明显优于它们的生成式学习方法。对于LBP特征，本文提出的判别CH方法获得了最好的精度，而CDL方
法对CNN特征的精度达到了最佳。在ESOGU数据集实验中，当使用CNN特征时，生成学习模型的精度提高，
而判别方法的精度又略有下降。最近的一种方法（Yang等人，2017年）报告了该数据集的准确度为27.6%。然
而，由于Yang et al.（2017）的作者只使用了前500名拥有1个以上视频的人的视频，因此结果无法直接进行比
较。即使我们在实验中使用了更多的人，我们27.6%的最佳准确率也非常接近这个结果。所提出的判别CH方
法和MSM同样是测试时间最有效的方法。
结论
本文介绍了一种用于基于图像集的人脸识别的判别仿射/凸壳。与其他独立学习生成模型以近似人脸图像集的
方法不同，本文提出的方法通过在图库中合并属于不同人的所有图像集来学习判别模型。因此，与使用生成
式学习模型的方法相比，该方法的精确度显著提高。所提出的方法也明显优于基于集合的识别方法。精度的
提高是非常重要的，特别是在具有挑战性的PaSC，ESOGU和COX数据集上。例如，本文提出的判别CH方法
在COX数据集上比另一个成功的判别方法Cevikalp和Yavuz（2017）的二进制EPCC的性能高出11.1%，这是非
常显著的。这些结果表明，与生成模型相比，本文提出的判别模型更适合于基于集合的分类。除了这些精度
增益外，所提出的方法也非常快速，因为我们离线学习有区分式模型的参数，并且我们只在在线测试期间实
现简单的矩阵乘法。结果，与文献中的其他判别方法相比，我们获得了298倍的加速因子。

江南蜡笔小新

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
[学习笔记·翻译稿] Video Based Face Recognition by Using Discriminatively Learned Convex Models

机翻+手动调整仅供学习之用PDF已上传至蓝奏云：https://wwi.lanzous.com/iAcIyl9vthcVideo Based Face Recognition by Using DiscriminativelyLearned Convex ModelsHakan Cevikalp , Golara Ghorban DordinejadAbstract大多数基于图像集的人脸识别方法对每个人使用一个生成式学习模型，该模型通过忽略图库集中的其他人而独立学习。与这些方法相比，本文介
复制链接

扫一扫

专栏目录