【论文笔记】Towards a Practical Face Recognition System: Robust Registration and Illumination by Sparse

最新推荐文章于 2023-08-13 00:33:50 发布

二月山

最新推荐文章于 2023-08-13 00:33:50 发布

阅读量353

点赞数

分类专栏：笔记文章标签：人脸识别

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Towards a Practical Face Recognition System: Robust Registration and Illumination by Sparse Representation

2009 CVPR

一些概念

1.registration 配准：图像配准(Image registration)就是将不同时间、不同传感器（成像设备）或不同条件下（天候、照度、摄像位置和角度等）获取的两幅或多幅图像进行匹配、叠加的过程。
图像配准就是将同一个场景的不同图像转换到同样的坐标系统中的过程。这些图像可以是不同时间拍摄的（多时间配准），可以是不同传感器拍摄的（多模配准），可以是不同视角拍摄的。这些图像之间的空间关系可能是刚体的（平移和旋转）、仿射的（例如错切），也有可能是单应性的，或者是复杂的大型形变模型。

配准技术的流程如下：
首先对两幅图像进行特征提取得到特征点；通过进行相似性度量找到匹配的特征点对；然后通过匹配的特征点对得到图像空间坐标变换参数；最后由坐标变换参数进行图像配准。
而特征提取是配准技术中的关键，准确的特征提取为特征匹配的成功进行提供了保障。因此，寻求具有良好不变性和准确性的特征提取方法，对于匹配精度至关重要。
在这里插入图片描述
2.alignment 对齐
alignment是人脸对齐，但是人脸检测和人脸关键点检测是对齐的前提条件。其主要思路是通过检测人脸关键点，然后作仿射变换等进行人脸对齐。

Abstract

人脸识别在less-controlled环境下效果不太好，这主要是因为很难同时将光照、对齐、姿态和遮挡的变化处理得很好。本论文提出一个简单实用的人脸识别系统，演示了如何使用稀疏表示工具在存在显著配准错误和遮挡的情况下，将测试人脸图像与一组正面训练图像进行对齐。在诸如Multi-PIE的公共人脸数据集上，我们详细地描述了吸引区域的特征。进一步研究如何获得一组充分的训练照明为线性插值实际照明条件。我们已经实施了一个完整的人脸识别系统，包括一个基于项目的训练获取系统，以评估我们的算法如何在实际测试条件下工作。我们的实验表明，我们的系统可以在各种现实条件下有效地识别人脸，仅使用正面图像在提出的光照下作为训练。

Introduction

classical algorithm：速度快且简单，但往往在大规模、实际的测试中失败，无法达到真正实现人脸识别自动化的最终目标，例如在设施的门禁控制、计算机系统和自动柜员机等实际应用中。
【J. Wright, A. Yang, A. Ganesh, Sastry, and Y. Ma. Robust face recognition via sparse representation. to appear
in PAMI, 2008.】将识别问题转换为，根据训练集作为一个整体来寻找测试图像的稀疏表示，直到因为遮挡出现的一些稀疏误差。虽然在一些控制实验条件的公共数据集上表现良好，但是没有解决现实生活中人脸识别存在的两个重要的方面：在图像域和像素值的明显变化。用下图的例子来说明：
在这里插入图片描述
任务：通过计算输入的脸相对于整个训练集的稀疏表示，在20个主体中识别出女孩。右边绘制的是与每个主体相关的系数的绝对和，还展示了用每个受试者的训练图像通过相关的稀疏系数加权重建的面孔。女孩对应第12个主体，红色线表示那个。
top：输入的脸部图像来自Viola and Jone’s 脸部检测器i（一个黑盒子），训练中有本论文规定的38个光照要求。但由于有一点配准误差，所以识别错误。（应该就是没有考虑测试人脸和训练集人脸不对齐的问题）
middle：输入的脸部和训练集有很好的对齐(白盒），但训练时只有24个前景光照，依旧识别错误。
bottom：输入脸部图像很好地对齐和训练中有足够的（38个）光照，能提取有用的表示信息。

解决实际情况下的配准误差

【Robust face recognition via sparse representation】这篇论文（以下简称**【14论文】**）提出的算法：sparse representation and classification(SRC)算法。该算法假设测试图像与训练集的像素精确对齐，这将导致在摆位和错位下的脆性，使得它不适合在实验室设置之外部署。
从K个主体中识别出某一个主体。第 i 个主体的所有图像堆叠为 n_i 维向量，形成矩阵在这里插入图片描述
所有主体组合一起形成一个大矩阵

【14论文】中，假设测试图像已经很好地对齐，用 y0 表示测试图像，y0可以用数据集的所有图像的稀疏线性组合 Ax 表示，并加上一个由于遮挡引起的稀疏误差 e0：即 y0 = Ax + e 。
可以通过最小化 x 和 e 的1范数来获得稀疏表示 x ：
在这里插入图片描述

但当测试图像有一些不对齐的时候，可以用 y 表示，并通过转换矩阵得到 y0：

T 是作用于图像域的有限维变换组。

在这里插入图片描述
我们可以通过求解以下式子得到正确的转换矩阵（下文用 t 表示）：

对 x 、e 、t 的联合优化是一个非凸优化问题。一个难点是矩阵A是多个主体人脸的表示，会导致很多局部极小值。所以，寻找测试图像的脸和每个主体 i 的最佳对齐会更合适：
在这里插入图片描述
不再惩罚 x的1范数（就是不再给它加个min），因为 Ai 只包含主体 i 的图像，所以 x 不再被期望是稀疏的。
虽然问题（3）还是非凸的，但可以对转换矩阵一个好的初始猜测，比如可以从一个人脸检测器的输出中得到。可以通过不断线性化当前对于 t 的估计，得到真正的转换矩阵。
在这里插入图片描述

在这里插入图片描述

对 y和t 的哈达玛积标准化：

在这里插入图片描述

Contribution

配准和照明这两个强耦合的问题在稀疏表示框架下可以很自然地解决。脸部配准是非线性问题，但可以通过一系列线性规划，迭代最小化配准误差的稀疏值，来解决这个问题。这使得在有很大变化范围的平移、旋转、缩放和姿态情况下，甚至是由于戴眼镜、帽子、闭上眼睛和张开嘴巴、传感器饱和等引起的脸部只能部分可见时，仍能高效、有效地对齐。