Deep learning approach for facial age classification: a survey of the state‑of‑the‑art

1 Abstract

利用人脸图像进行年龄估计是一项令人兴奋和具有挑战性的任务。这些面部特征被用来确定人们的年龄、性别、种族背景和情绪。在这些特征中,年龄估计在一些潜在的实时应用中是有价值的。传统的手工制作方法依赖于年龄估计,不能正确地估计年龄。庞大的训练数据集的可用性和计算能力的提高使卷积神经网络深度学习成为年龄估计的更好方法;卷积神经网络将直接从图像像素中学习鉴别特征描述符。许多研究者提出了几种卷积神经网络方法,这些方法对年龄估计系统的结果和性能产生了重要影响。在这篇论文中,我们对最先进的深度学习技术进行了深入研究,这种技术可以从人脸中估计年龄。我们讨论了常用的用于年龄估计的卷积神经网络结构,对常用的面部衰老数据集上的一些深度学习模型的性能进行了批判性分析,并研究了用于性能评估的标准评估指标。最后,我们尝试分析了在未来可以提高年龄估计系统性能的主要方面。
通过面部进行的年龄分类,在我们的社会存在中起着非常重要的作用。人脸传递着与个人特征相关的重要信息,这些信息在人与人面对面的交流中起着举足轻重的作用。这些行为在很大程度上依赖于我们评估个体特征的能力:年龄、性别、面部表情、姿势和种族,这些都来自于面部特征(Gallagher和Chen2008)。这些面部特征在我们的生活中非常重要,而从面部图像准确可靠地预测这些特征的能力还远远不能满足商业应用的需求(Badame和Jamadagni 2017)。
然而,不管持续研究领域的年龄估计,在学术界和工业界都有他们的努力致力于算法设计、建模、数据收集、系统性能测试,和有效的评估协议,这仍然是一个挑战性的工作在确定个人的准确年龄(Angulu et al . 2018年)。面部衰老的过程是由内在因素不仅影响喜欢改变大小的脸,面部特征形状、皱纹、面部轮廓,面部特征分布在脸上,但也由外在因素,如生活方式、健康的饮食习惯,社会性、环境和气候条件(Farkas et al . 2013年)。
在自动年龄估计中,通过大多数现有技术所采用的传统方法,获取面部表征所需的面部特征非常具有挑战性(Gurpinar et al. 2016)。许多方法都是手工制作的,这需要很强的先验知识来手工设计;不能依靠它们来准确预测人类的年龄。近年来,卷积神经网络(CNN)方法被应用于目前的年龄估计分析中,取得了较好的年龄估计精度性能。深度学习和CNN作为一种基于学习的特征表示方法,已经被迫直接从原始像素学习判别特征表示,并获得将人脸图像投影到另一个特征空间所需的线性特征过滤器(Liu et al. 2015b)。CNN架构具有从人脸图像中提取人脸特征的能力(Antipov et al. 2016)。
然而,由于面部估计任务的挑战性,进一步提高年龄估计正确性的尝试仍在进行中,研究者们不断研究不同的方法(CNN)来进一步提高结果。因此,我们提出了一种最新的面部年龄估计的深度学习方法。
我们的贡献总结如下:

  1. 我们提出了一个调查不同的国家最先进的CNN建筑面部年龄估计描述他们的优势和弱点。
  2. 并对现有的人脸老化基准数据库进行了研究,提出了它们对不同年龄估计技术的适用性。
  3. 我们概述了用于年龄估计的不同的最先进的算法和技术,突出了它们的优缺点
  4. 我们回顾了标准年龄估计精度指标及其在年龄估计中的应用领域。
  5. 我们也呈现不同的CNN方法在curren国家艺术和他们的表现简明的报告

一种典型的基于CNN方法的年龄估计系统如图1所示。据我们所知,这是第一篇全面回顾CNN方法估算年龄的论文,其他如Angulu等人(2018)和Fu等人(2010)关注手工制作和其他机器学习方法。这项工作的其余部分安排如下:在第2节。在第3节中,我们介绍了与年龄估计相关的不同CNN架构。我们讨论了流行的面部老化数据集。第4节讨论了不同的年龄估计算法,第5节讨论了之前使用CNN方法进行年龄估计的工作。第6节提出讨论,然后在第7节中总结我们的贡献和结论。在这里插入图片描述

2 回顾CNN的最新架构

近年来,深度学习和CNN在特征学习和人脸识别方面表现出了很好的效果。它有直接从图像像素学习鉴别特征描述符的能力(Liu et al. 2017a)。这些特征是正确估计人的年龄所必需的。AlexNet、GoogLeNet、VGGNet、ResNet、SqueezeNet和Xception CNN体系结构通常被认为是最常见的体系结构,因为它们在不同的基准测试(包括年龄估计任务)上具有最先进的性能。以下是对架构的描述:

2.1 AlexNet架构

Krizhevsky等人(2017)提出了最早的CNN年龄估算架构之一。AlexNet获得了2012年ImageNet大尺度视觉识别挑战(ILSVRC)的冠军,被记录为第一个成功的CNN架构,在“ImageNet”数据集上训练了大约120万标记图像的对象。AlexNet由8层的简单布局、5个卷积层和3个完全连接的层组成。CNN的架构与LeNet类似,但更深层,有层叠的卷积层和更多的过滤器。AlexNet模型的深度对性能有贡献在Levi和hassncer(2015)、anand等人(2017)以及Agbo-Ajala和Viriri的作品中(2020)。它主要用于解决一个非常具有挑战性的面部分析问题,包括年龄估计,性别识别等。然而,Alex Net比ResNet和谷歌Net更深入的模型表现得更好,但是它的计算成本很高图2显示了网络体系结构的表示。
在这里插入图片描述

2.2 Visual Geometry Group (VGGNet)架构

作者Karen和Andrew(2015)提出了一种改进的CNN架构,如图3所示。VGGNet是文献中最流行的CNN架构。它有一个非常小的过滤器,经过训练可以进入更高的深度(16-19层),从而在“ImageNet”分类挑战中获得最先进的结果。该体系结构经常用于迁移学习(特征提取和微调)。因为它显示了高于平均水平的能力,泛化到数据集,它没有训练。VGGNet已被证明在年龄估计方面是有效的这在Rothe等人(2015)、malli等人(2016)、agustsson等人(2017)中得到了观察。Anand et al. (2017), Shara and Shemitha (2018), Qawaqneh et al. (2017), Rothe et al.(2018), Nam et al. (2020), Li et al. (2019), Liu et al. (2017a)和Antipov et al.(2016)。然而,从头训练VGG是费时的,也需要高计算能力;网络的训练极其缓慢,网络架构本身的权重也相当大。具有“完全连接”层和反向传播的网络,决定了它的重量大小。如果他们是随机初始化和从零开始训练的,VGG架构很难学习;对于基本的随机初始化来说,网络太深了。为了解决上述问题,Karen和Andrew(2015)开发了一种“预训练”方法,该方法只需要更少的权值层来进行训练,将收敛网络权值作为更深层次网络的初始化。然而,训练较小的网络结构变异,然后使用收敛权值初始化到更深层次的网络,尤其对于像VGG这样具有许多全连通层的更深层次网络,是非常耗时的;它需要训练和调优超参数以获得良好的结果。然而。VGG体系结构已经证明自己更适合泛化任务。VGG还有一个较小的变体叫做“MiniVGGNet”,它非常适合于较小的数据集。在这里插入图片描述

2.3 GoogLeNet架构

Szegedy等人(2015)提出了一个比AlexNet更深更广的架构(GoogLeNet)。它的模型重量为28MB,比VGG-16(16层)和VGG 19(19层)更轻。GoogLeNet使用的是“全球平均池化”而不是早期架构中的“全连接”层,这大大减小了它的重量。虽然与AlexNet和VGGNet相比GoogLeNet是一个很小的架构,但在2014年版的“ILSVRC”中,GoogLeNet的表现超过了VGG模型:该模型在构建整体的“宏架构”时使用了“网中网”或“微架构”。Goodman等人(2015)提出了一种改进的Inception版本(Inception V3),以进一步提高“图像网”的分类精度,这也影响了Liao等人(2018)和Liu等人的作品性能。然而,对于需要更少网络参数的更小的数据集(具有更小的图像空间维度),可以使用简化版的“盗梦模块”(具有更轻的层)。图4展示了GoogLeNet网络架构的图示在这里插入图片描述

2.4ResNet架构

ResNet架构是由He等人(2016a)开发的,主要是为了改进现有CNN架构如VGGNet、GoogLeNet和Alex Net的性能。它引入了“残差模块”和“恒等映射”的概念,是一个令人兴奋的网络。ping“不在现有的架构中,但能够实现最先进的结果。ResNet比VGG网络更深,但是由于使用了“全局平均池”来代替VGGNet中的“完全连接”层,因此模型尺寸大大小于VGGNet。ResNet的强度是作者在He et al. (2016a)中介绍的“剩余模块”。“残馀模块”由两个分支组成:第一个是简单的快捷方式,它将输入连接到第二个分支的添加,以及一系列的卷积和激活。然而,我们发现“瓶颈”是对“残差模块”的扩展,在训练更深层次的网络时表现更好。此外,He et al. (2016a)在其更新的出版物中,对“残差模块”内部的卷积、激活和“批处理归一化”层的排序进行了实验,发现通过更新“残差模块”使用“identity mappings”,可以获得更高的准确率(Zhang et al. 2017)。然而,ResNet在大深度下计算代价昂贵;训练需要很长时间。还有其他浅的变异Resnet 的 tions 喜欢 “Resnet - 10” 。“ResNet-18”。和 “ResNet - 34”, 这也将基因在对具有挑战性和难度较大的面部年龄估计任务进行分类时,常用的方法是对难度较小的任务进行分类,但不能获得与深度分类一样高的准确率。图5a, b是体系结构的表示。在这里插入图片描述

2.5 SqueezeNet架构

landola等人(2017)提出了一种更轻的CNN架构,通常在我们需要很小的足迹时使用。与VGGNet、ResNet、Alex Net和GoogLeNet相比,它是一个很小的网络,模型重4.9M,通过模型压缩可以进一步减少到0.5MB。当需要对网络进行培训,然后在“网络”和/或“资源受限”设备上部署网络时,通常会使用“挤压网”。该网络的训练可以减少参数的数量,但仍能获得较高的精度。Squeezenet使用了“fire模块”,它只依赖于1x1和3x 3卷积的扩展和缩减阶段。模块降低了空间体积大小的网络flters数量和相对较低的存在“全球平均池“全球平均池”行动的“全”(FC)层,删除FC ayers,还有更多的好处,减少广泛网络所需的参数的数量。然而,SqueezeNet并不包含在Keras核心库中。如图6所示,架构的微小性质将影响其泛化性能。
在这里插入图片描述

最近,Chollet(2017)提出了“Xception”(“极端盗梦”)网络,这是对“盗梦”架构的扩展,但用“深度可分离的卷积”取代了盗梦模块。“Xception”是一种完全基于“深度可分离卷积”层的卷积神经网络架构,其最小的“权重序列化”只有91MB。如图7所示,网络结构由36个“卷积层”组成14个“模块”,除了第一个模块和最后一个模块外,所有模块的周围都有线性的“剩余连接”。“Xception”架构是一个带有“剩余连接”的线性层叠,与“初始”架构相比,这使得架构更容易定义和修改。在“ImageNet”数据集上,“Xception”不仅在“Inception V3”上有较好的结果,在“ResNet-50”、“ResNet-101”和“ResNet-152”上也有较好的结果(He et al. 2016a)。但是,“Xception”比“Inception”模块稍微慢一些。
在这里插入图片描述

表1描述了目前最先进的CNN架构,图8显示了典型的CNN年龄估计结构。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 面部老化数据库概述

适当的面部衰老数据库的可用性对年龄估计研究领域的发展起着重要的作用。这使得研究人员能够迅速地投入到研究活动中。在与软生物识别相关的研究领域,高质量的年龄分离人脸图像对于研究的成功也是至关重要的,特别是在年龄估计任务中(Panis et al. 2015)。以下是一些可用的面部老化数据库的简要描述:

原文该处对所列数据库进行了简介,本文利用表格进行了展示,受篇幅约束,详尽介绍如有需要请自行查询

Burt’s Caucasian database
3D morphable database
Face and Gesture Recognition Network (FG‑NET) database
PAL database
Face Recognition Grand Challenge (FRGC) database
MORPH database
Waseda human–computer Interaction Technology (WIT‑DB) database
The AI & R asian database
Iranian face database
UIUC‑IFP database
Lotus Hill Research Institute (LHI) face database
Gallagher’s web‑collected Database
Ni’s web‑collected database
Human & Object Interaction Processing (HOIP) database
Biometric Engineering Research Center (BERC) Database
Kyaw’s web‑collected Database
OIU‑Adience database
Cross‑Age Celebrity Database (CACD)
Asian Face Age Database (AFAD)
AmI‑Face database
IMDb‑WIKI Database
APPA‑REAL database
AgeDB database
UTKFace database
在这里插入图片描述
在这里插入图片描述

MORPH-II, IMDb-WIKI, OIU-Adience, CACD, AFAD, witd, HOIP, Gallagher的web-collected、Ni’s web-collected、AgeDB和UTKface数据库由于数据量大,最适合使用CNN技术进行年龄估计。但是,从图9可以看出,在使用CNN技术进行年龄估计时,MORPH-II的使用次数最多;它是在受控环境中估计人脸年龄的最合适的数据集,而OIU-Adience和IMDb-WIKI非常适合在不受控制的真实环境中对人脸图像的年龄进行分类。IMDb-WIKI中的图片示例。OIU-Adience和MORPH-II数据集如图10所示。表2还对本文研究的所有数据集的适用性进行了总结。
在这里插入图片描述

4 年龄估计算法的描述

在本节中,我们将介绍用于面部年龄估计的不同算法和技术。如图11所示,这些技术大多可分为五种不同的类别;年龄估计可以建模为多类分类(MC)、度量回归(MR)。排序、深度标签分布学习(DLDL)或混合(两种或多种技术的组合)。我们对这些算法进行了描述,并提出了我们认为最有效的方法。

4.1多类分类(MC)

多类分类方法把年龄或年龄组作为一个独立的标签,把年龄值作为一个单独的类别,学习年龄分类器推断一个人的年龄(冯等,2017;朱等,2015;Malli et al. 2016)。MC algorithm通过不考虑其他类最大化了基真类标签的概率。然而,大多数关键年龄数据集的训练样本有限,类不平衡,会导致过拟合问题(Gao et al. 2018)。

4.2度量回归(MR)

基于度量回归的算法将年龄类视为线性递进关系,不显示老化方法的多样性。它利用适当的正则化方法从特征空间中学习最适合映射年龄-值空间的特征。虽然将年龄估计任务作为一个MR问题来处理是很正常的,但这确实使平均绝对误差(MAE)的结果最小化,提高了估计精度的性能。然而,MR生成的训练模式不稳定,误差项大,影响了精度性能。典型的回归方法有高斯过程(Zhang and Yeung 2010)、二次回归(Lanitis et al. 2004),支持向量回归(Guo et al. 2008a)

4.3深度标签分布学习(DLDL)

DLDL方法将真实年龄转换为离散年龄分布,以拟合整个年龄分布。它是一种端到端的学习模型,解决了大多数年龄估计任务中训练图像不足的问题。它通过将真实年龄值转换为离散年龄分布来拟合整个年龄,缓解了对大量训练图像和数据分布不均匀的需求。在不增加训练样本数量的情况下,增加与每个类标签连接的训练实例(Shen et al. 2017;Gao等(2018)。然而,通常会发现,所采用的评价指标与培训目标之间缺乏一致性,因此会产生不满意的结果。

4.4排名Ranking

基于排序的算法采用年龄轴策略进行年龄类预测,并利用年龄的相对顺序。它使用相对的年龄等级而不是真实的年龄标签,并利用年龄等级标签与所呈现的人脸图像的相关性,按照降序排列年龄等级标签,以防止对每个年龄标签做出简化问题的决定(Chang等人)。2010;Li等2012;Liu等,2017b)。但是,当训练目标和评价指标不一致时,排序算法会产生次优结果

4.5混合Hybrid

混合算法是将两种或两种以上的算法以并行或更灵活的方式组合而成,以获得更好的性能。该算法充分利用每个单独算法的优势来获得更健壮的系统(Choi et al. 2011;Dib和El-saban 2010;郭等,2008a)。不幸的是,结合两种或更多的算法会导致巨大的存储开销和计算成本,因此,影响其在资源受限的机器上的适用性。

4.6年龄估计算法

在这一节中,我们总结了不同年龄估计算法的主要优点和缺点。如表4所示,大多数现有的最先进的方法使用多类分类和混合算法。该混合算法将两种或多种算法结合在一起,给出了一个较好的鲁棒性模型,弥补了各算法的不足之处。排序算法则解决了分类算法特有的问题,利用不同年龄的序号信息将其转化为不同的二值分类问题。度量回归通过了解数据的特征与某个值之间的关系,对数据进行预测。然而,通过深度标签分布学习,即使数据集的标签分布不均匀,我们也可以利用相邻的年龄来生成每个年龄的标签分布,从而获得更好的模型。表3总结了这些最新的算法,说明了它们的优点和缺点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 利用CNN对年龄估计研究的回顾

2015年,Levi和Hassncer(2015)开发了一个浅层CNN架构,使用“三个卷积层和两个完全连接层”来学习特征表示。简单的卷积神经网络结构的提出是为了减少由于大型面部老化数据库的可用性有限而导致的训练数据量有限时可能出现的过拟合。他们还应用了“辍学正则化”和“数据扩充”的方法来进一步限制过度拟合的风险。尽管他们的网络布局简单,但当它在年龄和性别评估挑战性的adience基准上被评估时,它优于现有的最先进的方法。
Liu等(2015b)提出了“AgeNet”;一种用于年龄估计的“端到端学习方法”。所设计的网络融合了基于高斯标签分布的分类模型和基于真实值的回归模型,解决了表观年龄估计问题。对于这两个模型,我们使用一个大型的深度CNN来学习年龄特征表征。他们还开发了一个深度迁移学习方案,以克服过度拟合可能产生的问题。
因此,实验结果在“ChaLearn 2015表观年龄竞赛”中获得了第二名的位置,这使得网络(age Net)在表观年龄估计方面达到了最先进的水平Rothe et al.(2015)为了在无约束环境下获得更可靠的经过训练、精细调整的系统,采用深度学习方法“apparent age的deep expectations (DEX)”来处理静止人脸图像中表观年龄的估计。体系结构。在ImageNet数据集上预先训练的用于图像分类的vga -16网络。他们从IMDb网站和维基百科上收集了大约50万名名人的面部图像,从而建立了最大的公众面部老化数据库。他们还对表面年龄标记的人脸图像进行了微调,以提高准确性。他们的方法将年龄回归问题定义为深度分类问题,然后进行“softmax期望值细化”,这表明了对cnn的直接回归训练的改进。DEX网络集成对裁剪后的人脸图像进行“20个网络”的预测,并没有明确地使用人脸标志。该方法在2015年查尔温特圈速挑战赛中,与其他最先进的方法相比,戏剧性地获得了表观年龄估计的第一名。
Ranjan等人(2015)利用深度卷积神经网络对无约束图像进行年龄估计。该方法采用了“人脸检测”、“对齐”、“深度特征提取”和“三层神经网络回归”四个不同的步骤来完成任务。该方法从预训练的DCNN模型池中获取所需的特征,并采用“高斯损失函数”和“三层神经网络回归”模型进行年龄估计任务,然后采用“层次学习”方法进行增强。结果表明,“高斯损失函数”和提出的“三层神经网络回归”模型在年龄估计方面优于传统的“线性”模型。
作者霍等人(2016)提出了一种使用“基于分布(KL散度)损失函数”的深度CNN的方法。该体系结构由两种不同体系结构的深度CNNs组成:vgg16和一种新的体系结构。vga -16在三个不同的数据集上进行了微调,第二个模型使用不同类型的输入和不同的增强方法来训练这个新的CNN模型。每个深度CNN模型在不同的数据集上预先训练,然后在竞争数据集上调整深度CNN模型。他们必须将两种模型的结果结合起来,才能得出最终的预测年龄。结果,他们的方法获得了0.3057的电子错误,这赢得了“ChaLearn 2015年表面年龄竞赛”的第四名。由于使用了额外的119.539张人脸图像和其他公共面部数据集进行训练,该模型的预测效果更强。
Gurpinar等人(2016)提出了一种表观年龄估计方法,利用深度学习对面部图像的表观年龄进行估计。该方法将样本分为不同的“重叠的年龄组”。这些年龄组的估计是在最后融合所有年龄组进行最终估计之前,用“局部递退者”方法进行的。他们使用“内核极限学习”机器进行分类。该模型在“ChaLearn LAP 2015挑战赛”的表观年龄估计数据集上进行了评估,在“隔离测试集”上以0.374的正常得分排名第七。这表明,对于几乎所有的群体来说,“本地退化者”比“全球退化者”表现得更好。
Antipov等人(2016)利用预先训练过的vgg16卷积神经网络开发了一种解决方案。他们在巨大的IMDb-WIKI数据集上训练网络,然后在比赛中提供的小数据集上对其进行微调。他们表明,对儿童实际年龄的估计是比赛的重点。鉴于此,他们为0到12岁的儿童开发了一个独立的vgg16网络,并对其进行表观年龄估计的训练;“儿童网络”与“一般网络”是分开的。他们采用了不同的“年龄编码”策略来训练“儿童”和“一般”网络;严格的一种为“儿童”网络,“标签分布编码”为“一般”网络。实验结果在2016年版的查尔温特圈表观年龄估算中获得了第一名的位置Liu等人(2015a)提出了一种用于面部年龄估计的“多区域卷积神经网络”(MRCNN)。该方法利用了包含丰富时代信息的“多子区域”。它通过将“多面子区域”连接在一起来进行年龄估计。该方法利用“8个网络”构建“8个子网络”结构,然后在特征层进行融合。该模式有两个好处:一是“8个子网络”学习了相应子区域的独特年龄特征,二是“8个子网络”被打包在一起,以补充年龄化的信息。引人注目的是,实验结果在morphi - ii数据库上得到了最先进的性能评价。

Malli等人(2016)开发了一套深度学习网络来实现ar表观年龄估计。他们采用了一种微调过的VGG-16卷积神经网络架构,这种架构是在IMDb-WIKI数据库上预先训练过的。他们发现,个体的外表年龄与真实年龄是不同的。真实年龄与一个年龄标签相关联,而表观年龄则与多个年龄标签相关联。为了解决这个问题,他们把年龄范围内的人脸图像分类在一起。他们利用这些年龄组和年龄移位组训练了一组深度学习模型,然后结合这些模型的输出来实现最终的估计。他们解决了相关的年龄分布不平衡的问题。通过使用“自适应数据增强”对数据集进行处理。基于有序回归和深度学习,Niu等人(2016)提出了一种“端到端学习”的方法来解决与“有序回归问题”相关的困难;第一个通过CNN解决“有序回归”问题的工作。该方法采用深度CNN,可以同时进行“特征学习”和“回归”建模。本文提出的方法是一种多输出CNN学习算法,共同解决一系列“有序回归”子问题。作为解决方案的一部分。他们开发了一个名为“亚洲面部年龄数据集(AFAD)”的数据集,包含大约16万张精确年龄的面部图像。当评估或morphi和AFAD数据集时,该方法获得了最先进的性能。
Agustsson等人(2017)提出了一种“深度剩余深度期望”(DEX)方法,该方法有能力提高原始的“DEX回归元”在年龄估计任务中的表现。“原始回归元”通过从输入人脸图像中提取鲁棒性特征来粗略估计年龄,而“残差回归元”通过一个“专门”模型处理了“粗略DEX估计”和“地面真值标签”之间的残差。新的“回归”模型允许校正,也提高了显示年龄估计任务改进的“原始DEX”的性能。作为解决方案的一部分,他们开发了一个名为“app - real”的大型人脸图像数据集,其中包括真实和明显的年龄标注。
Anand等人(2017)采用“后处理”方法来提高预训练深度网络的性能。该方法利用预先训练好的CNN从输入的人脸图像中提取特征。该方法实现了一个“特征级融合”,降低特征空间的维数,最后估计个体的年龄使用前馈神经网络(EENN),年龄估计方法取得更好的结果比最先进的技术在评价“接近基准过滤的面孔性别和年龄估计”和一个私人(AmlFace)数据集。Aydogdu和Demirci(2017)提出了一种用于年龄估计任务的“优化深度CNN”架构。提出的CNN结构由四个卷积层和两个完全连接的lavers组成。该架构的性能是在一个morphi - ii数据库上评估的,在使用“精确成功”、“top-3”、“1-ofr”标准和“标准差”值进行研究时,该架构的表现优于其他CNN架构。基于排名方法。Chen et al.(2017)开发了一种基于cnn的新型架构“排名cnn”用于年龄估计。该体系结构有一系列基于“顺序年龄标签”的基础cnn。这些cnn的二进制输出被收集为最终的年龄估计。通过大量的实验。他们指出,与“多类”分类技术相比,他们提出的方法产生的估计误差更小。因此。“排名- cnn”方法在基准数据集上明显优于其他最先进的年龄估计模型为了克服数据集不同销售数据导致模型强不变性的问题,Liu等人(2017a)提出了一种多路径CNN模型,提出了一种用于面部年龄估计的“群感知深度特征学习”(GA-DFL)技术。GA-DFL方法通过学习一个“判别特征描述符”直接从原始像素中提取人脸描述所需的特征。为了平滑相邻的年龄组,他们引入了重叠耦合学习方法。他们还采用了“多路径”深度CNN架构,将多个尺度的信息集成到学到的人脸表示中,进一步提高了方法的性能。他们在可控和不可控条件下获得的三个公开的面部年龄估计数据集上评估了该方法的有效性,与最先进的面部年龄估计方法相比,该方法取得了更好的性能。Liu等人(2018,2019)提出了一种用于面部年龄估计的“有序深度特征学习”(ODFL)方法。ODFL开发了deep CNN,利用CNN研究“年龄自适应”的人脸描述符,利用“拓扑感知顺序关系”进行人脸描述。实现这一目标。他们保证了人脸图像的“拓扑感知顺序关系”保持在已学习的特征位置,并保证了嵌入特征表示的年龄区分信息在一个“保持排序”的wav中得到。他们在四个公开的面部年龄估计数据集上评估了实证结果,与目前最先进的方法相比,结果显示出令人鼓舞的表现。
此外,Qawaqneh等人(2017)采用了一种vggi - face网络模型,该模型在数据库上进行训练,用于人脸识别任务。CNN的深层结构由11个1艾尔组成;8个卷积层,3个完全连接的层,每个“卷积”层接一个“整流”层,每个卷积块的末端都有一个“最大池”层。该研究还调查了一个“GoogLeNet”架构,并在一个拥有数百万训练图像的非常大的数据库上进行了训练,但不幸的是,它不能超过提出的VGG模型。vggn - net CNN进一步优化和修改,以执行年龄估计任务。
Zhang et al.(2017)提出了一种基于CNN的野外年龄和性别估计方法“残差网络中的残差网络(RoR)”。首先在ImageNet数据集上对RoR模型进行预训练,然后在IMDb-WIKI-101和adience数据库上进行校正,以获得更好的人脸图像学习能力。他们评估了所提出的RoR方法在流行度基准上估计年龄和性别的有效性。为了克服训练数据不足的问题,Gao等人(2018)提出了一种基于标签分布的基于cnn的方法。他们设计了一种“轻量级”网络架构,没有大量的网络参数。降低计算成本和存储开销:模型参数为0.9M。所提出的方法是一个“统一”的结构,可以集中学习年龄分布和年龄回归。该模型是通过将两种现有的最先进的年龄估计方法统一到一个单一的DLDL框架来设计的。他们还提出了一种“DLDL-v2”框架,通过集体学习年龄分布和使用浅、深网络结构回归单一年龄,缓解了训练阶段和评估阶段之间的差异。在对LAP2016和morphi数据集进行评估时,这种方法在表观和真实年龄估计任务上创造了一种新的最先进的结果,与最先进的方法取得了可比较的结果。Duan et al. (2018a)在aze估计中引入了一种“分层”风格的CNN和“极限学习机”(Extreme Learning Machine, ELM)的“混合结构”。“hybrid architecture”利用CNN从输入图像中提取特征,而ELM对“中间结果”进行分类。随后,他们在两个流行的数据集——morphi和adience benchmark上建立了他们的混合结构的性能,实验表明,在相同的人脸老化数据集上,混合框架取得了比其他结果更好的性能Furher,在Duan et al. (2018b)中,作者提出了一种集成结构称为“CNN2ELM”,它包括CNN和“极限学习机”(Extreme Learning Machine, ELM),用于年龄估计。该模型是对Duan等人(2018a)所使用方法的修正。该模型由“特征提取”与融合、通过ELM分类器进行年龄分组和通过“ELM回归器”进行年龄估计三层模型组成。他们训练了三个网络来提取年龄、性别等特征。并在测试和验证阶段从同一形象的人那里比赛。通过融合种族和性别特征,与年龄属性相关的特征得到了改进。然后,为了获得一个狭窄的年龄跨度,ELM将融合结果分类到一个年龄组。随后,使用“ELM回归变量”来确定年龄。他们在“ImageNet”数据库上预先训练网络,然后在“IMDb-WIKI”数据库上进行微调。他们在adience基准上评估了该网络的有效性。ChaLearn LAP2016和MORPH-II,它在年龄估计任务上超过了目前最先进的方法。它在查尔赚取2016年人们表观年龄估计挑战的最终结果中排名第六。
Liao等人(2018)提出了一种“AgeNet”和“divide-and-rule”架构来估算年龄。“AgeNet”是一个基于cnn的网络。利用网络提取人脸年龄描述符,采用分规则策略进行人脸年龄估计。“AgeNet”模型采用了一种基于回归和分类的方法来构建一个年龄估计深度CNN。该网络是一种坚固的人脸年龄特征提取模型,具有优越的图像展示能力。提出的“分治”学习模型是为了解决与年龄估计相关的“有序回归”问题。在FG-NET、morphi - ii和IMDb-WIKI上的实验结果表明,采用“AgeNet”方法和“divide-and-rule”方法估计年龄的效果优于传统的年龄估计方法。
同样在Shara和Shemitha(2018)中,作者提出了基于vggi -face网络的多深度CNN用于面部年龄估计。年龄估计方法包括三个不同的阶段:“训练”阶段、“特征提取”阶段和“测试”阶段。他们还收集了超过1万张年龄标签的人脸图片。他们通过深度的基于cnn的模型从脸部的年龄差异中提取了年龄信息。该方法在模型的顶层采用“对称kull背- leibler发散损失函数”,损失函数采用“标签分布”。在私人收集的图像上评价了该方法的性能。后来,Rothe等人(2018)使用了“深度期望”(DEX):一种基于vga -16架构的深度学习解决方案,在不使用面部地标的情况下,通过单一面部inaze来解决真实和表面年龄估计问题。他们还引入了IMDbWIKI数据集。最大的带有年龄和性别标注的面部图像公共数据集。DEX模型最初在“ImageNet”和“IMDb-WIKI”数据集上进行了预训练,以获得更好的性能。DEX从大量数据中学习,在确定年龄回归的期望值之前,利用稳健的面部对齐。他们在标准基准上验证了DEX方法:吗啡- il。FG-NET。和LAP2015,它在真实年龄和表面年龄的估计上都达到了最先进的水平Liu等人(2018)开发了一种基于“多类焦损失函数”的CNN架构,以提高年龄估计的实现。精确。他们设计了一种通过重塑标准的“交叉熵损失”来接近类不等式的方法,它降低了对分类良好的样本的损失的权重:他们研究了不同年龄类别之间过度的类不平衡问题。他们在一个adience基准上验证了该方法,并表明提出的模型在年龄估计方面取得了显著的改善。Li等人(2019)提出了一种基于CNN的技术。新娘,年龄估计。该模型由两个部分组成:局部回归和门控网络,它们可以通过端到端的方式共同学习。第一个组件(本地回归器)通过对数据空间进行分区来处理异构数据。相比之下,第二个(门控网络)。采用桥式树结构,学习局部回归变量使用的连续感知权值。对变形FG-NET的实验结果。Chalearn LAP 2015数据集证明了CNN模型是有效的,优于目前最先进的方法Liu等人(2019)随后开发了一种方法,该方法是Liu等人工作的延伸。(2018)。该工作是一个端到端的有序深度学习(ODL)框架,包括两个有序回归损失函数:平方损失和交叉熵损失。提出的基于排序的有序深度特征学习(ODFL)方法从原始imaze象素中直接学习人脸表示所需的特征,然后独立学习特征提取和年龄估计的步骤。这项工作是在最先进的面部老化数据集上评估的。,与现有的年龄估计方法相比,具有更好的性能。
Zhang等人(2019)也提出了一种新的方法;复发年龄估计(RAE)。基于cnn的方法利用输入人脸图像的外观特征和个性化的老化模式。RAE采用的架构结合了CNN和长短期存储网络(LSTM);CNN接受训练从人脸图像中提取具有鉴别性的外观特征,而LSTM网络则从人脸特征序列中学习个性化的老化模式。此外,为了利用真实年龄和邻近年龄的模糊性,作者采用了标签分布式学习(LDL),通过克服小数据集导致的过拟合问题,提高了实验结果。实验结果表明,RAE在morphi和FG-NET数据集上的性能优于现有的方法。
Nam et al.(2020)利用基于深度cnn的模型,将低分辨率人脸重建为高分辨率人脸,解决了低分辨率人脸图像的年龄估计问题。基于cnn的解决方案由一个条件生成对抗网络GAN组成,该网络在用作输入之前对低分辨率的人脸图像进行预处理。然后,该模式使用了最先进的CNN网络架构,如ResNet、VGG和DEX。用于人脸重建图像的年龄估计。对PAL变形的实验结果。并与FG-NET数据库进行了比较,验证了该方法在高分辨率重建中的有效性。它在低分辨率图像的年龄估计方面取得了最先进的结果。此外,在Liu et al.(2020)中,作者开发了一个轻量级CNN网络(Shuf)。基于混合注意机制(MA-SFV2)的feNetV2)。模型:混合注意力-洗牌v2。转换输出层,将年龄估计建模为一个分类问题(将年龄分类为一个单独的标签),回归问题(将人脸的年龄排序为一个特定的顺序)和分布学习(考虑相邻年龄之间的年龄相关性)。该模型包括降低噪声向量影响的图像预处理和滤波、锐化、直方图增强等数据增强方法,增加图像大小,缓解网络过拟合。该模型结合了分类回归和分布式学习算法进行年龄估计。在morphi和FG-NET数据集上的实验结果证明了该模型在实际情况下的适用性,特别是在移动终端上。最近,Agbo-Ajala和Viriri(2020)开发了一种基于cnn的模型,用于将无约束的真实人脸图像按照年龄和性别进行分类。该方法包括对输入图像进行预处理的图像再处理算法,以及对图像进行特征提取和按年龄、性别分组的CNN结构。实验结果在OIU-Adience数据集上进行评价。它证实了他们的方法的有效性,比在相同数据集上的其他研究更好。

6 Discussion

年龄估计可以作为准确的年龄估计或年龄组估计。精确年龄估计给一张人脸图像分配了一个确切的年龄标签,而年龄组估计了一张人脸图像可能落在的年龄范围。如表3所示,目前估计年龄(组)的技术分为五类,其中包括:“多类”分类、“度量回归”。“排名”。“Deep Label Distribution Learning”(DLDL)和“hybrid”(结合两种或两种以上的建模方法);年龄(组)估计可以采用“多类”分类、“度量回归”等方法。“排名”。DLDL或两种或两种以上方法的“杂交”。但是,在这些方法中进行选择可能取决于问题的复杂性、数据集的大小和使用的数据集的年龄分布。从文献中可以很明显地看到,对于年龄估计任务的深度学习的最佳类别,并没有给出简明的结论。对于庞大且“均匀分布”的数据集,可以采用任何一些方法。对于年龄标签分布不平衡(不均匀)、年龄标签或训练图像不足的数据集,可能更适合采用基于排序和DLDL的方法。与单一的CNN方法相比,以并行或分层的方式结合两种或两种以上的建模方法可以产生更好的性能。这种混合方法充分利用了所使用的每种技术的优势,不仅预期其性能优于其他单独的方法,而且还使其更加健壮。重要的是使用已建立的度量标准来度量替代解决方案、模型或方法能够通过直接度量它们的强度、缺陷和权衡来满足预期或目标的程度。与面部年龄估计相关的标准评估指标是:平均绝对误差(MAE)是评价各年龄估计性能的最常用指标之一,也是训练数据中有缺失图像时最适用的年龄估计指标。MAE是估计年龄和地面真实年龄之间绝对误差的平均值(Onifade和Akiny emi 2014)。如数学公式(1)所示,它被定义为年龄估计技术的平均性能。MAE越小,年龄估计器的有效性越好。
在这里插入图片描述
其中lk:估计年龄,lk*:测试图像的ground truth年龄k, N:测试图像的总个数。累积分数(CS)是衡量年龄估计器性能的有用指标(Lu et al. 2015)。当训练数据几乎在每个年龄都有图像时最合适。它也可以用来作为一个年龄组分类器效率的指标。式(2)给出了CS的数学函数。c越大。年龄估计器的有效性越好。
在这里插入图片描述
式中,j:误差级别,N:测试图像的总数,Ne<=j:年龄估计绝对误差不大于j(年)的测试图像的数量。精确精度度量还用于定义年龄估计器的有效性(Levi和Hassncer 2015)。它是根据被划分为正确年龄组的人脸图像的百分比来计算的。式(3)给出其数学方程。
在这里插入图片描述
1-off评价度量是否地基真类标签与预测的类标签匹配(Aydogdu和Demirci 2017)。它允许与实际年龄范围最多有一个桶的偏差。1-off被计算为正确预测与数据点总数的比率。Normal Score (e-error)度量计算不准确预测占评估实例总数的比例(Zhu et al. 2015)。e误差越小,年龄估计器的性能越好式(4)给出了电子误差度量的数学定义

在这里插入图片描述
其中x:估计年龄,o:给定人脸图像提供的明显年龄标签,M:给定人脸图像所有估计年龄的标准差。然而,在早期的研究工作中有一些主要的观察结果有助于得出一些合理的结论。因此,我们强调指出我们认为非常重要的一些观点:
据观察,大多数现有的工作假设了一个约束场景的人脸图像;输入图像中的人脸被归一化为正面视图。而其他模型采用了面部预处理步骤,使面部定位和对齐,为接下来的步骤准备图像我们还观察到,用于人脸检测的图像处理方法。面部地标和面部对齐对年龄估计器的性能有影响。同样重要的是,学习算法的性能是由许多因素决定的,其中包括使用的数据集的大小和标签分布,图像的可变性程度等。深度学习算法在不同数据集上的表现不同,这很可能是由于每个数据集的特殊性。数据增加可以提高年龄估计模型的性能,特别是在分布不均匀的、不太大的数据集上。我们还从文献中观察到,在对原始数据集进行微调之前,对大规模数据集进行预训练的模型比只对原始数据集进行训练的模型表现更好。从这篇综述中,我们观察到多类分类算法已经是文献中最普遍使用的年龄估计的个体算法。我们还观察到,当数据集的标签分布不均匀时,rank和DLDL是最适合估计的算法

7 Conclusion

在本文中,我们全面地介绍了各种CNN架构及其优缺点。深入分析现有的CNN先进的方法在年龄估计也被讨论。我们还研究了可用的不同的面部老化数据基准,它们在不同CNN模型上的适用性和性能,当衡量标准评估指标时。表4总结了CNN的年龄估计方法在不同数据库上的个人评价,有一系列令人鼓舞的未来研究可以看到年龄估计性能的改善。其中有:根据现实生活中不受约束的人脸图像来估计一个人的年龄正迅速变得越来越流行,因为它有很多可能的应用。虽然已经作出了一些努力,以达到一个高水平的精度的结果,结果是相当不够好,因为在一个理想的世界图像经历了不同程度的变化的挑战。在未来的工作中,需要研究一种更深层次的网络架构,使训练的人脸图像分布充分且均匀。
此外,有必要对一项研究进行调查,使其更多地关注于预测外表年龄(人看起来有多大?)而不是生理年龄(人的真实年龄)。这在“面部美容产品开发”中很有用。“电影”和“戏剧角色”的选角,“整形手术”,“特定年龄就业”。等。在表观年龄估计研究中,使用大量的表观年龄标注而不是真实年龄标注的数据集也将有助于提高表观年龄估计的准确性。对不同方法的比较分析有助于更好地理解项目的实施。因此,本研究可作为选择正确的面部年龄估计方法和方法的指导,进一步完善该领域现有的最新研究成果。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
《基于深度学习的面部表情识别:一项调查》是一篇发表在IEEE Access期刊上的论文。本论文综述了基于深度学习的面部表情识别的最新研究进展。 面部表情识别是计算机视觉领域的重要研究方向之一,广泛应用于情感分析、人机交互、虚拟角色等领域。传统的面部表情识别方法常常需要手工提取特征,且受到光照、姿态等因素的限制。而基于深度学习的面部表情识别则无需手工设计特征,可以从原始像素中直接学习特征表示,因此能够更好地解决这些问题。 本文首先介绍了深度学习在面部表情识别中的应用,包括卷积神经网络(CNN)和循环神经网络(RNN)等。CNN在面部表情识别中起到了关键作用,它可以提取图像的空间特征。RNN则主要用于处理序列化的面部表情数据,可以捕捉到表情的动态变化。 接着,本文概述了深度学习在面部表情识别中的不同应用场景,包括静态图像识别、视频序列识别和实时识别等。在静态图像识别中,通过对单张图像进行分析得出表情类别。在视频序列识别中,可以利用RNN结合CNN对连续视频帧进行处理,从而对表情做出连续预测。在实时识别中,需要实时地对实时视频流中的表情进行识别,对算法的实时性提出了挑战。 最后,本文总结了当前基于深度学习的面部表情识别的挑战和未来的研究方向。尽管深度学习在面部表情识别中取得了显著进展,但仍然存在一些挑战,如样本不平衡、多标签问题和泛化能力等。未来的研究可以探索更加有效的网络架构和训练方法,以提高面部表情识别的性能和适应性。 总之,本论文通过深入调查和总结,对基于深度学习的面部表情识别进行了详细介绍,并提出了未来的研究方向,对相关领域的学者和研究人员具有一定的参考价值。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值