MATLAB人脸识别系统
1 人脸识别技术
人脸因人而异,绝无相同,即使一对双胞胎,其面部也一定存在着某方面的差异。虽然人类在表情、年龄或发型等发生巨大变化的情况下,可以毫不困难地由脸而识别出某一个人,但要建立一个能够完全自动进行人脸识别的系统却是非常困难的,它牵涉到模式识别、图像处理、计算机视觉、生理学、心理学以及认知科学等方面的诸多知识,并与基于其他生物特征的身份鉴别方法以及计算机人机感知交互领域都有密切联系。与指纹、视网膜、虹膜、基因、掌形等其他人体生物特征识别系统相比,人脸识别系统更加直接、友好,使用者无任何心理障碍,并且通过人脸的表情和姿态分析,还能获得其他识别系统难以得到的一些信息。20世纪90年代以来,随着需要的剧增,人脸识别技术成为一个热门的研究话题。
1.1人脸识别的研究内容
人脸识别(Face Recognition)是利用计算机对人脸图像进行特征提取和识别的模式识别技术。在二十世纪七十年代初,对人脸识别的研究涉及心理学神经科学。其直接目的是要搞清楚人是如何对人脸进行识别的。七十年代中期以后,开展了用数学、物理和技术的方法对人脸自动识别的研究。
人脸识别一般可描述为:给定静止图像或动态图像序列,利用已有的人脸图像数据库来确认图像中的一个或多个人。从广义上来说,计算机人脸识别的研究内容大概可以分为以下五个方面。
1.1.1人脸检测(Face Detection)
此过程包括人脸检测(Detection)、人脸定位(Location)和人脸跟踪(Tracking)。所谓人脸检测,就是给定任意图像,确定其中是否存在人脸,如果有,给出人脸的位置、大小等状态信息。人脸跟踪指在一纽连续静态图像所构成的动态视频中实时地检测人脸。人脸检测主要受到光照、噪声、姿念以及遮挡等因素的影响,人脸检测的结果直接关系到后面两个过程的准确性。近年来,人脸检测和跟踪开始成为独立的研究课题受到关注。
1.1.2人脸表征(Face Representation)
人脸表征就是提取人脸的特征,是将现实空间的图像映射到机器空间的过程。人脸的表示具有多样性和唯一性,这其实就是人脸共性和特性之间的关系问题:只有保持这种多样性和唯一性,才能保证人脸图像的准确描述和识别。
人脸图像信息数据量巨大,为提高检测和识别的运算速度以及提高图像传输和匹配检索速度,必须对图像进行数据压缩,降低向量维数,即用尽可能少的数据表示尽可能多的信息。人脸的表征在提取人脸特征的同时,也实现了对原始图像数据的降维。
1.2几种典型的人脸识别方法
对人脸识别方法的研究主要有两大方向:一是基于人脸图像局部特征的识别方法;二是基于人脸图像整体特征的识别方法。基于人脸图像局部特征的识别通常抽取人脸器官如眼睛、眉毛、鼻子和嘴等器官的位置,尺度以及彼此间的比率作为特征。进一步地可以用几何形状拟合人脸器官,从而以几何参数作为描述人脸的特征。由于此类方法通常要精确地抽取出位置、尺度、比率或几何参数作为描述人脸的特征,因此对人脸图像的表情变化比较敏感。同时,人脸器官分割的精确度也对人脸特征的提取有一定的影响。另外,该类方法并没有充分利用到人脸图像本身具有的获度信息,该方向已经不是人脸识别技术发展的主流方向。基于人脸图像整体特征的人脸识别方法由于不需要精确提取人脸图像中部件的具体信息,而且可以充分利用到人脸图像本身具有的灰度信息,因此可获得更好的识别性能。目前,绝大部分关于人脸识别方法的文章都是基于人脸图像整体特征的,主要有特征脸法、最佳鉴别向量集法,贝叶斯法,基予傅立叶不变特征法,弹性图匹配法,其他相关方法有线性子空间法,可变形模型法和神经网络法。这些方法中有的侧重于表述人脸图像的特征提取,如弹性图匹配法和傅立叶不变特征法;有的则侧重于分类,如最佳鉴别向量集法、贝叶斯法和神经网络法;而有的则侧重于人脸图像重构,如特征脸法和线性子空间法。所有这些基于人脸图像整体特征的人脸识别方法均取得了一定的识别性能。
1.2.1基于几何特征的人脸识别方法
基于几何特征的人脸识别方法主要源于人脸识别的初期研究阶段。这种方法是以人脸各个器官和几何关系为基础进行算法设计。对于不同人来说,脸上的各个器官,如眼睛、鼻子、嘴巴以及整个脸部的轮廓具有不同的形状、大小、相对位置和分布情况。
在基于几何特征的人脸识别方法中,可以用一个矢量来表示提取出来的几何参数。如果要获得一个准确、稳定和可靠的识别结果,就要求这些被选出的几何特征参数包含足够丰富的辨识人脸的信息,且能反映不同人脸之间的差别。也就是说对这些矢量要求具有较高的模式分类能力,同时还要有一定的稳健性,能够消除由于时间变迁、光照变化等其他干扰因素所带来的影响。具体来沈,这些几何参数一般包括人脸上两个指定特征点之间的欧式距离、边缘曲率、角度等等。
在实际应用过程中,基于几何特征的人脸识别方法存在着两个方面的问题:
(1)如何快速、准确地检测出入脸的重要标志点依然是一个没有很好解决的问题。脸上的重要标志点,如瞳孔、嘴巴和鼻子,它们在脸上的位置是进行脸部几何参数计算和测量的基准。
(2)脸部几何特征在人脸辨识中的有效性问题,即脸部几何特征能够提供多少可供识别的信息量。
虽然各人脸的器官在形状、大小及分布上各不相同,但是这种器官上的差异性更多是体现在某些细微的感觉意义上。例如眼睛显得比较小、鼻子显得比较宽,以及皮肤的纹理、颜色上的差异等等。显然,这些特征中的一部分是难以精确测量出来或者是不能用几何参数准确描述的。所以仅靠增加脸上几何参数的数目来提高人脸识别率是不太现实的。由于进一步改善测量精度是十分困难的,因而通过增加脸部几何参数的数量来改善识别率结果,其影响是极小的。因此,基于少量人脸几何特征进行大规模人脸辨识的可靠性是不容乐观的。
1.2.2基于K-L变换的特征脸方法
K-L变换是图像压缩的一种最优正交变换,人们将它应用于特征提取,形成了子空间法模式识别的基础。将K-L变换用于人脸识别,需要假设人脸处于低维的线性空间,不同人脸具有可分性。高维的图像空间经过K-L变换后得到一组新的正交基,保留其中重要的正交基从而形成了低维的人脸空间。
若将所有子空间的正交基排列成图像阵列,则正交基呈现人脸的形状,因此这些正交基也被称为特征脸。选择那些正交基形成的子空间则有不同的考虑,与较大特征值对应的一些正交基(也称主分量)能够表达人脸的大体形状,而具体细节需要那些小特征值对应的特征向量(也称次分量)来加以补充描述,因此低频成分用主分量表示,高频分量用次分量表示。采用主分量作为新的正交空间的正交基的方法称为主分量(Principal Component Analysis,简称PCA)方法。
K-L变换在90年代初受到了很大的重视,实际用于人脸识别取得了很好的效果,一般库德大小为100幅左右,识别率在70%-100%之间不等,这主要取决于人脸库图像的质量。
从压缩能量的角度来看,K-L变换是最优的,变换后的低维空间对于人脸有很好的表达能力,然而这并不等同于对不同人脸具有较好的判别能力。选择训练样本的散布矩阵作为K-L变换的生成矩阵,其最大特征向量反映了该样本集合的最大分布的方向,但这是图像统计方法,而不是人脸统计方法。它查找的是图像之间所有的差异,并根据这些差异来确定不同人脸间的距离,而不管这些差异是由于光线、发型或背景的改变引起的,还是属于人脸本身的内在差异,因此特征脸的方法用于人脸识别存在理论的缺陷。研究表明,特征连的方法随着光线、角度以及人脸的尺寸的引入而识别率急剧下降。主分量的方法使得变换后的表达能力最佳,次分量的方法考虑了高频的人脸区分能力,但是由于外在因素带来图像差异和人脸本身带来的差异对K-L变换而言是不加任何区分的,因此,如何选择正交基并不根本解决问题。改进的一个思路是针对干扰所在,对输入图像作规范化处理,包括输入图像的均值方差归一化,人脸尺寸归一化。另一种改进是考虑到局部人脸图像受到外在干扰相对较小的情况,除了计算特征脸之外,还利用K.L变换计算出特征眼、特征嘴等。将局部特征向量加权进行匹配得到一些好的效果。
总之,特征脸方法是一种简单、快速、使用的基于变换系数的算法,但由于它在本质上依赖于训练集合测试集图像的灰度相关性,而且要求测试图像与训练集比较接近,所以存在着很大局限。
1.2.3神经网络方法
人工神经网络是一种以大量的处理单元(神经元)为节点,处理单元之间实现加权值互连的拓扑结构。人工神经网络中的处理单元是人类大脑神经单元的简化。处理单元之间的互连则是轴突、树突这些信息传递路径的简化。根据不同的应用场合,现已研究出较多的神经元网络模型及其动态过程的算法。
人工神经元通常采用非线性的作用函数,当大量神经元连接成一个网络并动态运行时,则构成了一个非线性动力学系统。人工神经网络具有自组织性、高维性、模糊性、分布性和冗余性等等特点,较冯.诺依曼体系的计算机更适合模拟人类大脑的思维机理。但总的来说,由于人类对自身思维机理认识的不足,所以对人工神经元作了极度的简化,这种模拟表现为极其肤浅和简单。
很多脸部识别系统都采用了多层感知机作为人工神经网络的基本结构。多层感知机由几层全互连的非线性神经组成。神经元之间有权值连接,权值包含了训练模式空间的特征。训练过程就是调整权值的过程,最常用的算法就是BP法则。