人脸识别(MTCNN+FaceNet)

人脸检测是对人脸进行识别和处理的第一步,主要用于检测并定位图片中的人脸,返回高精度的人脸框坐标及人脸特征点坐标。人脸识别会进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。目前人脸检测/识别的应用场景逐渐从室内演变到室外,从单一限定场景发展到广场、车站、地铁口等场景,人脸检测/识别面临的要求也越来越高,比如:人脸尺度多变、数量冗大、姿势多样包括俯拍人脸、戴帽子口罩等的遮挡、表情夸张、化妆伪装、光照条件恶劣、分辨率低甚至连肉眼都较难区分等。随着深度学习的发展,基于深度学习技术的人脸检测/识别方法取得了巨大的成功,本文主要介绍人脸检测的深度学习模型MTCNN和人脸识别的深度学习模型FaceNet。

2016年Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao提出了人脸检测MTCNN(Multi-task Cascaded Convolutional Net works )模型。该模式是一种Multi-task的人脸检测框架,使用3个CNN级联算法结构,将人脸检测和人脸特征点检测同时进行,检测效果如下图所示:
在这里插入图片描述
Google工程师Florian Schroff,Dmitry Kalenichenko,James Philbin提出了人脸识别FaceNet模型,该模型没有用传统的softmax的方式去进行分类学习,而是抽取其中某一层作为特征,学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类等。人脸识别效果如下图所示,其中横线上表示的数字是人脸间的距离,当人脸距离小于1.06可看作是同一个人。
在这里插入图片描述
MTCNN模型
MTCNN是多任务级联CNN的人脸检测深度学习模型,该模型中综合考虑了人脸边框回归和面部关键点检测。MTCNN的网络整体架构如下图所示:
在这里插入图片描述
首先照片会按照不同的缩放比例,缩放成不同大小的图片,形成图片的特征金字塔。PNet主要获得了人脸区域的候选窗口和边界框的回归向量。并用该边界框做回归,对候选窗口进行校准,然后通过非极大值抑制(NMS)来合并高度重叠的候选框。RNet将经过PNet的候选框在RNet网络中训练,然后利用边界框的回归值微调候选窗体,再利用NMS去除重叠窗体。ONet功能与RNet作用类似,只是在去除重叠候选窗口的同时,同时显示五个人脸关键点定位。

MTCNN人脸检测的训练数据可以从http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/地址下载。该数据集有32,203张图片,共有93,703张脸被标记,如下图所示:
在这里插入图片描述
#其中x1,y1为标记框左上角的坐标,w,h为标记框的宽度,blur, expression, illumination, invalid, occlusion, pose为标记框的属性,比如是否模糊,光照情况,是否遮挡,是否有效,姿势等。

x1, y1, w, h, blur, expression, illumination, invalid, occlusion, pose

人脸关键点检测的训练数据可从http://mmlab.ie.cuhk.edu.hk/archive/CNN_FacePoint.htm地址下载。该数据集包含5,590张 LFW数据集的图片和7,876张从网站下载的图片。如下所示:
在这里插入图片描述
标记文件的格式为:

#第一个数据为文件名,第二和第三个数据为标记框左上角坐标,第四和第五个数据为标记框长宽,第六和第七个数据为左眼标记点,第八和第九个数据为右眼标记点,第十和第十一个数据为左嘴标记点,最后两个坐标为右嘴标记点。

lfw_5590 \Abbas_Kiarostami_0001.jpg 75 165 87 177 106 .750000 108 .250000 143 .750000 108 .750000 131 .250000 127 .250000 106 .250000 155 .250000 142 .750000 155 .250000

PNet的网络结构是一个全卷积的神经网络结构,如下图所:
在这里插入图片描述
该训练网络的输入是一个12*12大小的图片,所以训练前需要生成PNet网络的训练数据。训练数据可以通过和Guarantee True Box的IOU的计算生成一系列的bounding box。可以通过滑动窗口或者随机采样的方法获取训练数据,训练数据分为三种正样本,负样本,中间样本。其中正阳本是生成的滑动窗口和Guarantee True Box的IOU大于0.65,负样本是IOU小于0.3,中间样本是IOU大于0.4小于0.65。

然后把bounding box resize成1212大小的图片,转换成12123的结构,生成PNet网络的训练数据。训练数据通过10个333的卷积核 ,22 的Max Pooling(stride=2)操作,生成10个55的特征图。接着通过16个3310的卷积核,生成16个33的特征图。接着通过32个3316的卷积核,生成32个11的特征图。最后针对32个11的特征图,可以通过2个1132的卷积核,生成2个11的特征图用于分类;4个1132的卷积核,生成4个11的特征图用于回归框判断;10个1132的卷积核,生成10个1*1的特征图用于人脸轮廓点的判断。

RNet的模型结构如下所示:
在这里插入图片描述
模型输入为2424大小的图片,通过28个333的卷积核和33(stride=2)的max pooling后生成28个1111的特征图;通过48个3328的卷积核和33(stride=2)的max pooling后生成48个44的特征图;通过64个2248的卷积核后,生成64个33的特征图;把3364的特征图转换为128大小的全连接层;对回归框分类问题转换为大小为2的全连接层;对bounding box的位置回归问题,转换为大小为4的全连接层;对人脸轮廓关键点转换为大小为10的全连接层。

ONet是MTCNN中的最后一个网络,用于做网络的最后输出。ONet的训练数据生成类似于RNet,检测数据为图片经过PNet和RNet网络后,检测出来的bounding boxes,包括正样本,负样本和中间样本。ONet的模型结构如下所示:
在这里插入图片描述
模型输入是一个48483大小的图片,通过32个333的卷积核和33(stride=2)的max pooling后转换为32个2323的特征图;通过64个3332的卷积核和33(stride=2)的max pooling后转换为64个1010的特征图;通过64个3364的卷积核和33(stride=2)的max pooling后转换为64个44的特征图;通过128个2264的卷积核转换为128个3*3的特征图;通过全链接操作转换为256大小的全链接层;最好生成大小为2的回归框分类特征;大小为4的回归框位置的回归特征;大小为10的人脸轮廓位置回归特征。

MTCNN模型推理
MTCNN的Inference流程如下图所示:
在这里插入图片描述
由原始图片和PNet生成预测的bounding boxes。输入原始图片和PNet生成的bounding box,通过RNet,生成校正后的bounding box。输入元素图片和RNet生成的bounding box,通过ONet,生成校正后的bounding box和人脸面部轮廓关键点。执行过程如下所示:

1.首先读入要检测的图片:image = cv2.imread(imagepath)

2.加载训练好的模型参数,构建检测对象:detector = MtcnnDetector

3.执行推理操作:all_boxes,landmarks = detector.detect_face(image)

4.绘制目标框:cv2.rectangle(image, box,(0,0,255))

FaceNet模型
FaceNet主要用于验证人脸是否为同一个人,通过人脸识别这个人是谁。FaceNet的主要思想是把人脸图像映射到一个多维空间,通过空间距离表示人脸的相似度。同个人脸图像的空间距离比较小,不同人脸图像的空间距离比较大。这样通过人脸图像的空间映射就可以实现人脸识别,FaceNet中采用基于深度神经网络的图像映射方法和基于triplets(三联子)的loss函数训练神经网络,网络直接输出为128维度的向量空间。

FaceNet的训练数据可以从http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html下载,该训练数据包括10575个人,共453453张图片。验证数据集可以从http://vis-www.cs.umass.edu/lfw/地方下载,该数据集包含13,000张图片。训练数据的组织结构如下所示,其中目录名是人名,目录下的文件是对应人的照片。
在这里插入图片描述
接着对该训练数据中每个图片进行预处理,通过MTCNN模型把人脸检测出来,生成FaceNet的训练数据,如下图所示:
在这里插入图片描述
形成相应的数据结构如下所示:
在这里插入图片描述
FaceNet的网络结构如下图所示:

在这里插入图片描述
其中Batch表示人脸的训练数据,接下来是深度卷积神经网络,然后采用L2归一化操作,得到人脸图像的特征表示,最后为三元组(Triplet Loss)的损失函数。

下图为FaceNet中采用的Inception架构的深度卷积神经网络:
在这里插入图片描述
模型结构的末端使用triplet loss来直接分类。triplet loss 的启发是传统loss函数趋向于将有一类特征的人脸图像映射到同一个空间。而triplet loss尝试将一个个体的人脸图像和其它人脸图像分开。三元组其实就是三个样例,如(anchor, pos, neg),利用距离关系来判断。即在尽可能多的三元组中,使得anchor和pos正例的距离,小于anchor和neg负例的距离,如下图所示:

在这里插入图片描述
用数学公式可以表示为:
在这里插入图片描述
模型在每个Mini Batch的训练时,为了计算triplet Loss值,需要选定合理的triplet三元组。如果采用暴力的方法从所有样本中找出离他最近的反例和离它最远的正例,然后进行优化,查找时间太长,并且还会由于错误标签图像导致训练收敛困难。可采用在线生成triplet的方式,在每个mini-batch中,生成triplet的时候,找出所有的anchor-pos对,然后对每个anchor-pos对找出其hard neg样本。主要流程如下所示:

1.在mini-batch开始的时候,从训练数据集中抽样人脸照片。比如每一个batch抽样多少人,每个人抽样多少张图片,这样会得到要抽样的人脸照片。

2.计算这些抽样图片在网络模型中得到的embedding,这样通过计算图片的embedding之间的欧式距离得到三元组了。

3.根据得到的三元组,计算triplet-loss,进行模型优化,更新embedding。

FaceNet模型推理
FaceNet模型推理流程如下所示:
在这里插入图片描述
1.通过MTCNN人脸检测模型,从照片中提取人脸图像。
(MTCNN检测人脸位置,得到bounding box;再用opencv对上一步得到的bounding box进行人脸区域的裁剪,并对齐(因为实际裁剪出来的脸,大小不一(如距离远近造成的人脸图片大小不同),但神经网络的输入要统一尺寸(如9696,或160160),所以所有人脸需要对齐到统一图片大小上))
2.把对齐后的人脸图像输入到FaceNet,计算Embedding的特征向量。

3.比较特征向量间的欧式距离,判断是否为同一人,例如当特征距离小于1的时候认为是同一个人,特征距离大于1的时候认为是不同人。

总结

本文首先介绍了人脸检测和人脸识别,人脸检测用于定位图片中的人脸,人脸识别用于识别人脸的身份。然后讲解了MTCNN模型的主要思想,并对MTCNN的关键技术进行分析,主要包括训练数据,网络架构,PNet,RNet,ONet及模型推理。接着讲解了FaceNet模型的主要思想及关键技术包括训练数据,网络结构,损失方程及Triplet的选择。用户可应用MTCNN及FaceNet模型架构到工业领域中相关人脸检测及识别场景。

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种高级编程语言,并且非常适合进行人工智能领域的开发。MTCNN (多任务级联卷积神经网络) 是一种用于人脸检测、对齐和识别的深度学习模型。Facenet是一种基于卷积神经网络的人脸识别模型,该模型可以将两张不同的人脸图片转换为同一向量空间中的两个不同点。SVM(Support Vector Machine)是一种监督式学习算法,它的主要目标是将训练集中的不同类别数据分隔开来,以便将来被识别的新的样本能够被正确分类。 在这个项目中,我们使用Python编程语言和上述技术来实现了人脸识别系统。首先,我们使用MTCNN对输入图像进行了人脸检测和对齐,即找到并将人脸图像转换为标准大小,然后使用Facenet来将图像转换为向量表示。 接下来,我们使用支持向量机 (SVM)算法对向量进行分类并预测所属人脸的标签。如果已知标签,则可以将标签与输出进行比对,从而确认识别结果是否正确。 在实际项目中,我们面对的是不同的人脸照片,这些照片具有各种不同的外观和表情。为了提高识别准确性,我们引入了数据增强技术,例如旋转、缩放、剪切等操作,从而增加了机器学习模型的训练数据量。此外,我们还通过t-SNE降维可视化技术来研究不同人脸图像在高维特征空间的不同分布,从而更好地理解人脸识别模型的工作原理。 总的来说,Python基于MTCNNFacenet、SVM等算法进行人脸识别项目实战,是一项非常有挑战性的任务。然而,随着深度学习技术的不断进步,越来越多的人脸识别项目可以得到解决。从这个意义上说,这项任务带给我们的启示是,通过深度学习算法和多种技术手段的结合,我们可以构建更加高效和智能的人脸识别系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值