《A Deep Face Identification Network Enhanced by Facial Attributes Prediction》
- 2018,Fariborz Taherkhani, Nasser M. Nasrabadi, Jeremy Dawson
1.引言:
本文提出了一种新的端到端的深度学习框架:预测面部属性和利用它作为一种软模态(soft modality)去提升人脸识别的表现。
组成: 卷积神经网络(CNNs)输出两个分支,第一个分支预测面部属性,第二个分支进行人脸识别,最后融合预测的属性和脸部特征 去提升人脸识别的表现。
作者展示了一些软的生物信息(soft biometric information),e.g.:年龄和性别它们本身在人脸识别上不具备足够的区分力,但能为其它主要的信息(人脸特征)提供互补的信息。
属性预测的方法通常被划分成 全局(global) 和 局部(local)的方式:
Local methods通常由三部分组成:1.检测目标的不同部位,2.提取每个部位的特征,3.将这些特征进行合并,训练分类器。
Global approaches,:从整张图像提取特征,然后训练分类器。
本文的主要贡献:
1)本文设计了一种新的端到端的CNN结构,学习去预测人脸属性同时进行人脸验证。
2)相比于已经存在的多任务方法仅仅使用共享的CNN特征去同时训练两种任务,本文使用特征级进行融合的方法利用人脸属性去提高人脸识别的准确率。
2.网络结构:
Facial Attributes Prediction 和 Face Identification 联合结构
net@1使用VGG19结构,最后接了一个global average pooling层(GAP:减少融合的特征维度)。
net@2划分成两个分支同时进行训练。两个分支由两个全连接层(FC)组成,Fc1 和
F
c
′
1
Fc{}'1
Fc′1由4096个单元组成,下一层是FC层同softmax操作组成,进行预测。
branch@1进行属性预测任务,最后一个FC层输出且执行softmax操作之前和GAP层的结果采用Kronecker product(克罗内克积) 进行融合,最后融合的层去训练branch@2进行人脸识别任务。
3.Fusion Layer on Facial Attributes and Face Modalities
以前,多模态融合的方法通常使用 特征连接(feature concatenation),本文使用Kronecker
Product来融合人脸属性特征和人脸特征。
假设v和u是人脸属性和人脸的特征向量,两个向量的Kronecker product被定义为:
4.训练和测试
net@1采用ImageNet数据集上的预训练模型,在CASIA-Web Face数据集进行fine tune。
CASIA-Web Face 包含10,575 subjects and 494,414 images.
在CelebA dataset进行人脸属性测试,CelebA是一个大型的、注释丰富的面部属性数据集,包含超过200K个名人图像,每个名人图像用40个面部属性标记。本文使用图像的8000个身份进行训练和剩余的1000个身份进行测试。在MegaFace进行人脸识别测试,MegaFace包含690K个人无约束姿势、表情、照明和曝光的1M图像。
Evaluation metrics:
本文在MegaFace数据集上评估了模型的人脸识别性能,在CelebA数据集上评估了模型的人脸属性预测性能。MagaFace数据集没有人脸属性标注。网络进行预测人脸属性,然后进行人脸识别。
Face Identification(人脸识别):我们计算gallery集合中的每个图像与probe集合中的给定图像之间的相似度,然后根据获得的相似度对这些图像进行排序。
Facial Attribute Prediction:我们利用人脸属性作为一种辅助信息来提升人脸识别的表现。人脸属性应该是不变的属性,同一个人在不同的场景持有相同的属性。Eg:gender, nose and lips shapes。然而, glasses, mustaches, or beards 是一个人很容易改变的属性。
CelebA 数据集中的身份面部属性如下:narrow eyes, big nose, pointy nose, chubby, double chin, high cheekbones, male, bald, big lips and oval face .
总结:本文提出了一种端到端的深度网络结构去同时进行人脸属性预测和身份识别。