人脸识别算法DeepFace论文解读

最新推荐文章于 2025-03-21 09:00:00 发布

纸上得来终觉浅～

最新推荐文章于 2025-03-21 09:00:00 发布

阅读量5.7k

点赞数 3

分类专栏：图像处理 paper阅读文章标签： DeepFace

原文链接：https://blog.csdn.net/hh_2018/article/details/80576290#commentsedit，https://blog.csdn.net/guoyunfei20/article/details/78196286

版权

图像处理同时被 2 个专栏收录

56 篇文章

订阅专栏

paper阅读

21 篇文章

订阅专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/hh_2018/article/details/80576290
参考地址：https://blog.csdn.net/guoyunfei20/article/details/78196286

论文题目：DeepFace: Closing the Gap to Human-Level Performance in Face Verification

论文地址：http://datascienceassn.org/sites/default/files/DeepFace%20-%20Closing%20the%20Gap%20to%20Human-Level%20Performance%20in%20Face%20Verification.pdf

DeepFace是FaceBook提出来的，后续有DeepID和FaceNet出现。而且在DeepID和FaceNet中都能体现DeepFace的身影，所以DeepFace可谓是CNN在人脸识别的奠基之作，目前深度学习在人脸识别中也取得了非常好的效果。DeepFace在进行人脸识别的过程中采用的是人脸检测——3D对齐——CNN提取特征——分类的过程。下边介绍DeepFace的基本框架：

一、人脸检测（face detection）

DeepFace采用了基于检测点的人脸检测方法（fiducial Point Detector）

1、先选择6个基准点，2只眼睛中心、 1个鼻子点、3个嘴上的点。

2、通过LBP特征用SVR来学习得到基准点。关于LBP的介绍见地址：https://blog.csdn.net/qq_32172681/article/details/100014705

二、人脸对齐（face alignment）

在对齐方面，DeepFace模型采用了3D对齐的方式，并且使用传统的LBP直方图（首先通过设置阀值并以某一像素点为中心邻域内的像素点一起和阀值比较，当大于阀值时就将其变为1小于阀值就变成0，然后在做成直方图统计各区域像素出现的次数）进行图片纹理化并提取对应的特征。对提取出的特征使用SVR处理以提取出人脸及对应的六个基本点。根据六个基本点做仿射变化，再根据3D模型得到对应的67个面部关键点，根据这些点做三角划分最终得出对应的3D人脸。其具体对齐流程如下：

a: 检测出人脸和对应的6个基本点

b: 二维对齐后的人脸

c: 使用狄罗尼三角划分在2D人脸上划分出67个关键点，并在边缘处采用添加三角形的方式避免不连续

d: 转化为2D平面并和原始2D图片进行比较时所需的标准3D人脸模型（通过标准3D人脸库USF生成的对应的平均人脸模型）

e: 3D-2D转化（标准3D脸转化为2D和原有的2D做残差使用）时所需要的变化，黑色部分表示不可见的三角形。对应不可见的三角形处理采用的是对称方式解决的。

f: 通过3D模型产生的67个基准点进行分段映射使人脸变弯曲，对人脸进行对齐处理。

g: 处理生成的2D人脸

h: 根据处理生成的3D人脸

其中：c和f相比经过了标准3D人脸转化为 2D人脸时的残差处理，此时主要是为保证在转化过程中特征的保留。e的作用是为了显示在处理过程中3D-2D转化为何是通过三角形的仿射变化进行的，由e可以看出处理后的人脸是一个个的三角形块。

三、人脸表示（face verification）

经过3D对齐以后，形成的图像都是152×152的图像，送入CNN，其结果如下：

C1：卷积层，卷积核尺寸11*11，共32个卷积核

M2：池化层，最大池化3*3，即stride = 2

C3：卷积层，卷积核尺寸9*9 ，共16个卷积核

L4：卷积层，卷积核尺寸9*9 ，共16个卷积核。L表示local，意思是卷积核的参数不共享

L5：卷积层，卷积核尺寸7*7 ，共16个卷积核。L表示local，意思是卷积核的参数不共享

L6：卷积层，卷积核尺寸5*5 ，共16个卷积核。L表示local，意思是卷积核的参数不共享

F7：全连接，4096个神经元

F8：全连接，4030个神经元

前三层的目的在于提取低层次的特征，比如简单的边和纹理。其中Max-pooling层使得卷积的输出对微小的偏移情况更加鲁棒。但没有用太多的Max-pooling层，因为太多的Max-pooling层会使得网络损失图像信息。除了不共享的卷积之外，该模型还采用了dropout方式避免模型的过拟合，该方法只是在F7的时候使用。

紧接着的三层都是使用参数不共享的卷积核，之所以使用参数不共享，有如下原因：