引言0.2 人脸识别系统的概念

最新推荐文章于 2023-01-13 17:43:13 发布

水木九章

最新推荐文章于 2023-01-13 17:43:13 发布

阅读量1.4k

点赞数

分类专栏：人脸识别文章标签：人脸识别照片算法相册活动测试

本文链接：https://blog.csdn.net/citizen2yy/article/details/5105685

版权

人脸识别专栏收录该内容

5 篇文章 0 订阅

订阅专栏

　　在我们谈及人脸识别的系统的时候，实际上应该先讨论一下什么是系统。如同我们在前面一节说的那样，这些知识我们在后续再补充。我们这里先提出系统的几个特点，作为本文的基础。

　　系统是这样一个东西，它有一个输入，有一个输出，在输入和输出之间，有一个转换的方法，我们把这个方法称为系统函数。这里所说的一个输入，可能是一系列的输入；一个输出，也可能是一系列的输出。输入和输出是针对于系统的边界而言。比如我们把一个人看成是一个系统，那么，他说的话是一个输出，他听到的话是一个输入。显然，关于人的说话系统，其输出是和输入有相互关系的。如果我们把人的说话器官（如嘴巴、声带、咽喉等器官的组合）看成一个系统，那么它的输出就是发出的声音了，而输入则变成了神经中枢传递给它的指令。这些指令传递给肌肉，然后肌肉接受指令后进行相应活动，最后形成发声。显然，如果我们能够解决人的说话系统的系统函数，那么我们就可以模拟一些场景；我们简单分析一下会发现，这个说话系统中有一部分似乎并不属于这个系统，但是又控制着这个系统的本身，那就是神经系统。也就是说，神经系统必须成为说话系统的一部分，我们才能够来研究说话系统。而本质上说话系统的核心，恰恰是神经系统。

　　那么人脸识别系统又是怎样的一个系统呢？我们说，人脸识别系统有很多种，并不能单纯用一个系统来说明。面对不同的应用，我们会有不同的人脸识别系统。最常见的人脸识别系统有2种。1）用于认证的人脸识别系统，这里简称认证系统；2）用于辨识的人脸识别系统，这里简称辨识系统。

　　认证系统的输入是两个人脸集合的信息，比如我们给宋兵甲拍了一张照片A放在认证系统里面，然后来了一个宋兵，我们问，这个人是不是宋兵甲，那就给这个宋兵又拍一张照片B，把A和B作为认证系统的输入。我们的认证系统会给出结论：a)这个宋兵是宋兵甲，b)这个宋兵和宋兵甲有点像但又不是很像，c)这个宋兵肯定不是宋兵甲。那么给出的abc到底哪一种结论就是我们的认证系统的输出。在不同的应用里面，输入的所谓"照片A"可能还不止一张照片，有可能是一段视频，也有可能是正面侧面很多张照片，还有可能是一个三维的3D图。当然，另一个输入"照片B"也有上述可能。而输出的可能仅仅是照片A和照片B的相似度。

　　辨识系统的输入是一组人脸集合的信息S和一个人脸信息B。比如我们给所有宋兵都拍了照片A1-An，那么这些A1-An组成的集合我们称为S，当一个"宋兵"来了之后，我们问，这个"宋兵"在不在我们登记注册的宋兵里面，这个"宋兵"到底是谁？辨识系统会给出结论，a)这个宋兵就是我们登记过的宋兵甲，b)我们不确定这个宋兵是谁，但是和这个宋兵很像的人有这么几个B1-Bm，c)这个宋兵根本就是冒充的。

　　因此，认证系统是1vs1的人脸识别系统，而辨识系统是1vsN的人脸识别系统。这两种系统都有着广泛的应用。如认证系统可以用在门禁、考勤、出入口控制（如奥运电子门票）、人脸签名以及一切需要确认身份的应用中；而辨识系统可以用在嫌疑人搜索、图像检索、重复的图像分拣、数据归并以及一切需要对一定数量的人脸进行批量遴选的应用中。下面我们探讨一下这两个系统的描述。

　　显然，认证系统需要考察的是AvsB的问题。那么就有2种情况，1）A是B，2）A不是B。如果A是B，而我们的认证系统认为A和B之间的相似度达不到某个阀值而认为A不是B，我们称为漏识率，也叫错误拒绝率，英文称为FALSE REJECT RATE，简称FRR。如果A不是B，而我们的认证系统认为AB相似度超过该阀值，我们称为误识率，也叫错误接受率，英文称为FALSE ACCEPT RATE，简称FAR。这里阀值是指某一个特定的值，如果我们认为两张图片的相似度达到或超过这个阀值，就认为认证系统判断这两张图片对应的是同一个人。阀值的选取是一种学问。而显然，不同的阀值会带来不同的FAR和FRR。我们通常称的识别率，是指正确接受率，也就是1-FRR。任何一个系统脱离了FAR来讨论FRR是没有意义的。因此如果我们看到某个认证系统宣称其识别率有多高而绝口不提FAR的话，那肯定是不完善的数据。我们通常会说，一个认证系统在FAR为0.001的时候其FRR是多少，也就是在千分之一误识率的情况下其漏识率能低到什么程度。相应地有关于1-FRR和1-FAR之间的关系。我们关注一个认证系统的优劣，在识别率方面，最好的参考是一条FRR-FAR的曲线。

　　图1图2

　　比如上面两张图是从FRVT2006的报告中摘出来的，图1描述在在FAR＝0.001的条件下从93年到06年的FRR的变化。而图2的横坐标是FAR，纵坐标是FRR，描述了各个厂家的FAR-FRR曲线。这两张图的清晰版本在我的相册里面可以找到。

　　我们再来考虑辨识系统对应的1vsN的问题。显然辨识系统需要考虑的问题更加多一些。首先这个N是多大是一个问题。在国外的系统中，因为种种原因，往往很难采集到一个足够大的N，而我国目前为止建成的最大的N大约是1000万左右。不同的N，对应的结果是不一样的。通常有一个说法，就是每6万人当中可以找出2个人长得非常相似。也就是说，6万人是一个坎。如果系统的N超过6万，就会有一些意想不到的结果。显然，如果N等于1，那么，我们的辨识系统中无论输入什么图像，目标图像都会排在第一位。如果N等于10，分别对应a1-a10这么10个人，如果输入一张照片B，那么对应的a-B的相似度会有一个排序，排在第一位的ak如果恰好是B，那么我们称这个人在第一名命中了。如果N=1000，我们考察辨识系统，如果能在第一名被命中，我们可能会觉得满意。如果是6万呢，那么第一名被命中的概率就很低了。由于N的不同会对前多少名被命中的几率产生影响，我们有时候也会考虑用前1%，1‰，万分之一，十万分之一的命中率来衡量辨识系统的准确率。但在实用的系统中，前1‰的命中未必管用，比如N为1000万的时候，前1‰的命中相当于B图像出现在前一万名，这是难以接受的。因此，我们权衡这个辨识系统的效果问题，通常采用两种机制。一个是前K名的命中率，一个是前k％的命中率。前者需要确认N的大小，后者不需要确认N的大小。

　　前面讲到的人脸识别系统的效果，实际上还和这N张图片和图片B的质量有关系，有关图像的质量问题，我们后面会深入探讨。这里指出，不同的测试环境，不同的图片质量，不同的图片来源等等都会对人脸识别系统的效果产生巨大的影响。

　　另外，就像我们前面讲到的人的说话系统，其核心是人的神经系统，而人脸识别系统的核心就是其人脸识别的核心算法。我们可以想象，如果一个人听到对方的声音断断续续，或者他自己本身口齿不清，在某些程度上也会影响人的说话系统的表现，也就是说，在核心的神经系统之外，还会有一些对输入的影响因素会导致这个系统本身的效果。类似地，人脸识别系统的效果，在某些程度上会受到输入图片和已有图片的质量有很大关系。因此，我们把人脸识别系统的系统中枢分成2部分，一部分是核心识别算法（神经系统），一部分是预处理算法（通过该算法来改善或使图片具有某些一致的特性）。

　　下一个话题是图像的质量。