【论文翻译】年龄估计 C3AE: Exploring the Limits of Compact Model for Age Estimation

原文:C3AE: Exploring the Limits of Compact Model for Age Estimation

链接:https://arxiv.org/pdf/1904.05059.pdf

摘要

年龄估计是计算机视觉中的经典问题。已经有许多更大更深并具有良好的性能的 CNN 被提出,例如 AlexNet、VggNet、GoogLeNet 和 ResNet。然而,这些模型对于嵌入式/移动设备并不实用。最近,已经提出了 MobileNets 和 ShuffleNets 来减少参数数量,从而产生轻量级模型。然而,由于采用了深度可分离卷积,它们的表示能力被削弱了。在这项工作中,作者研究了小规模图像紧凑模型的局限性,并提出了一种极其紧凑但高效的基于级联上下文的年龄估计模型(C3AE)。与 MobileNets/ShuffleNets 和 VggNet 相比,该模型仅具有 1/9 和 1/2000 的参数,同时实现了具有竞争力的性能。作者通过级联模型实现的 two-points representation 重新定义了年龄估计问题。此外,为了充分利用人脸上下文信息,提出了多分支 CNN 网络来聚合多尺度上下文。作者在三个年龄估计数据集上进行了实验,实现了具有先进性能的紧凑模型。

1. 介绍

近年来,卷积神经网络 (CNN) 正在开发得更深、更大,以实现更精确的精度。 这种趋势给训练或部署带来了前所未有的计算成本。特别是,由于模型大小和计算成本,在手机、汽车和机器人上部署现有的经典大型模型,例如 AlexNet、VggNet 和 ResNet 几乎是不可能的。

为了解决上述问题,MobileNets 和 ShuffleNets 通过利用深度可分离卷积来大大减少参数。在这些模型中,传统的卷积被两步卷积取代,即 filtering layer 和 combining layer。例如,在 MobileNets 中,filtering layer 首先分别对每个对应的通道进行卷积,从而打破各个输出通道之间的交互,这可以显着减少参数数量。1×1 卷积然后缝合不同的通道以组合从不同输入通道获取的信息。 对于大规模图像,这种操作是合理的,因为图像需要由大量通道表示,例如 VggNet 和 ResNet 中的 512 和 384。 然而,对于小尺寸图像,例如低分辨率和小尺寸的图像,这种方法值得讨论。

与大规模图像相比,小规模图像通常可以由网络中较少数量的通道表示,参数和内存的数量也是如此。因此,与深度可分离卷积相比,具有小尺寸内核的标准卷积层不需要更多的参数和内存。从图像表示的角度来看,深度卷积的输出通道比标准卷积的输出通道大很多倍。为了补偿表示能力,深度卷积必须付出增加参数的代价。因此,作者认为具有小内核尺寸的传统卷积层比深度方向更适合处理小规模图像。

图像通常必须在低成本移动设备上以低分辨率和比例(即小比例图像)进行存储和处理。属于该类别的突出问题之一是年龄估计。例如,无论是全分辨率还是低分辨率,以及面部的局部或全貌,人类都可以很容易地识别出图 1 中男人的年龄。因此,我们推测这种能力适用于当代的 CNN,并设计了一个紧凑的标准卷积层,其中包含小规模人脸图像作为年龄估计的输入。

 年龄估计的最新进展通常概括为两个主流方向:联合类别分类和值回归,以及分布匹配。对于前者,心理学证据表明,人类倾向于对图像进行分类评分而不是连续评分,即更喜欢不同的等级。一些作品利用类别信息和序数信息同时实现分类和回归。对于后一种,分布匹配可以在提供每个图像的分布标签的假设下取得有希望的结果。然而,获取数千张人脸图像的分布标签本身是一项艰巨的任务。在这项工作中,我们建议同时利用分类、回归和标签分布的信息。这是通过将离散年龄表示为两个离散年龄水平的分布来实现的,训练目标是最小化分布之间的匹配。在深度回归模型中,在特征层和年龄值预测层之间插入一个具有语义分布的全连接层。

总而言之,作者设计了一个以小尺寸图像作为输入的紧凑模型。具体来说,使用标准卷积而不是深度卷积并具有合适的内核和通道数。 该面部识别模型尺寸非常小,普通模型为 0.19MB,完整模型为 0.25MB。作者将离散年龄值表示为分布并设计级联模型。此外还引入了一种基于上下文的回归模型,该模型将面部图像的多个尺度作为输入。借助 Compact 基本模型、Casced 训练和多尺度上下文,以解决小尺度图像年龄估计问题。最终网络被命名为 C3AE。

该文章主要贡献如下。首先,作者研究通道数与深度卷积表示之间的关系,尤其是在小尺度图像上。主张重新考虑 MobileNets 和 ShuffleNets 的小/中规模图像。其次,提出了一种新的年龄表示方法,同时利用分类、回归和标签分布的信息并设计级联模型。 最后,我们提出了一种基于上下文的年龄推断方法,收集不同粒度的输入图像。 与替代的紧凑模型相比,作者所提出的模型 C3AE 实现了最先进的性能,甚至优于许多大型模型。 凭借极其紧凑的模型(普通模型和完整模型分别为 0.19MB 和 0.25MB),C3AE 适合部署在低端手机和嵌入式平台上。

2. 相关工作

年龄估计:人脸显示的年龄进展是不可控和个性化的,传统方法往往存在泛化性的问题。随着深度学习的成功,最近的许多工作都应用深度 CNN 来实现各种高性能的应用,例如图像分类、语义分割,物体检测。至于年龄估计,CNNs 也因其强大的泛化能力而被使用。Yi 等人先利用CNN模型从几个面部区域中提取特征,再使用 square loss 进行年龄估计。 AgeNet 使用一维实值作为年龄分类的年龄组。Rothe 等人提出 (DEX) 使用 softmax 概率的期望值和离散年龄值进行年龄估计。它是仅在测试阶段的加权 softmax 分类器。Niu 等人通过使用多个输出 CNN 将年龄估计公式化为序数回归。继 Niu 之后,Chen 等人利用 Ranking-CNN 进行年龄估计,其中有一系列基本的二元CNN,聚合并得到最终估计。Han 等人使用多个属性进行多任务学习。Gao 等人使用 KL divergence 来衡量年龄估计和真实分布之间的相似性。Pan 等人为分布学习设计了一种新的均值方差损失。

然而,在实际应用中,该分布通常不适用于人脸图像。在这项工作中,作者同时考虑两个目标。第一个最小化分布之间的 Kullback-Leibler loss,第二个优化离散年龄之间的 square loss。

紧凑模型:随着运行深度学习的移动/嵌入式设备的需求不断增加,各种高效模型,如 GoogLeNet、SqueezeNet、ResNet 和 SENet,旨在迎合这一浪潮。最近,MobileNets 和 ShuffleNets 采用深度卷积来降低计算成本和模型大小。它首先引入的深度可分离卷积构建,随后用于 Inception 模型以减少前几层的计算。过滤分离 - 在每个通道上分别应用卷积和组合 - 重新组合单个通道的输出实现了更少的计算。 MobileNet-V1 基于深度可分离卷积探索了一些重要的高效模型设计指南。 ShuffleNet-V1 利用新颖的逐点组卷积和 channel shuffle 来降低计​​算成本,同时保持准确性。 MobileNetV2 提出了一种新的具有 linear bottleneck 的反向残差。 ShuffleNet-V2 主要分析了模型的运行时性能,并给出了有效网络设计的四个指导方针。

对于年龄估计,作者认为对于小规模图像,通道大小通常很小,深度分离没有好处。相反,标准卷积足以在准确性和紧凑性之间进行权衡。

3. 提出的模型

本节首先介绍紧凑模型及其架构,以及一些关于实用指南的重要讨论。然后描述了一种新颖的年龄的 two-points representation,并利用级联样式将其嵌入到深度回归模型中。接下来,通过利用三个粒度级别的面部信息,将基于上下文的模块嵌入到单个回归模型中。最后给出了一些讨论以供重新思考。

3.1.小尺度图像的紧凑模型:重温标准卷积

如表 1 所示,普通模型由五个标准卷积和两个全连接层组成。标准卷积层后接 batch 归一化、Relu 和平均池化,其内核、通道数和参数分别为 3、32 和 9248。作为一个基本模块,作者将展示为什么使用标准卷积块而不是 MobileNets 和 ShuffleNets 中使用的可分离卷积块。这些将在后面的实验中证明。基本模型虽然简单,但与流行的模型相比仍具有竞争力。

在 MobileNets 中,分析了参数保存和计算的状态,特别是标准卷积和深度可分离卷积之间的比较。该分析适用于大型图像,而对于小/中型图像可能效果不佳。

给定输入和输出为 D_F\times D_F\times M 特征图 FD_F\times D_F\times N 特征图 GD_F 表示特征图的大小,M 和 N 分别是卷积层的输入通道数和输出通道数。计算成本的数量为 D^2_K \cdot M \cdot D^2_F + M \cdot N \cdot D^2_F。 相比之下,标准卷积层由大小为 D^2_K \times \hat{M} \times \hat{N} 的卷积核 K 参数化。 标准卷积和深度可分离卷积在计算成本上的减少是:

\frac{D^2_K \cdot M \cdot D^2_F + M \cdot N \cdot D^2_F}{D^2_K \cdot \hat{M} \cdot \hat{N} \cdot D^2_F} = \frac{M}{\hat{M} \hat{N}} + \frac{MN}{\hat{M} \hat{N}D^2_K} (1)

仅假设深度卷积和标准卷积都需要相同的通道大小,即 M = \hat{M}N = \hat{N},等式 1 可以减少到 \frac{1}{N}+\frac{1}{D^2_K}<1。然而,深度卷积通常需要更多的通道数才能在小规模图像上与标准卷积相媲美。 因此,实际上,\hat{M} 远小于 MN 也是如此。例如,图像可以在标准卷积中用 32 个通道表示,而不是在 MobileNet-V2 中用 144 个或甚至更大的通道表示。 在这种情况下,减速比为

\frac{M}{\hat{M}\cdot \hat{N}}+\frac{MN}{D^2_K \cdot \hat{M} \hat{N}} = \frac{144}{32\cdot32} + \frac{144\cdot144}{3^2\cdot32\cdot32} = 2.39 >1

这表明与 MobileNet-V2 相比,标准卷积甚至可以节省一半以上的计算成本。 因此,为小尺寸图像和模型选择标准卷积层是合理的。

3.2. 年龄的 two-points representation

在本节中,作者将新的年龄表示作为两个离散相邻 bins 的分布。给定一组图像 \begin{Bmatrix} (\textbf{I}_n, y_n) \end{Bmatrix}_{n_= 1,2,...,N},深度回归模型可以写成映射 F : I → Y ,其中 \textbf{I}_n 和 y_n 分别表示图像和回归标签。对于任何回归标签 y_n,它可以表示为两个其他数字 z^1_n 和 z^2_n  的 convex combination (z^1_n \neq z^2_n)

y_n = \lambda _1 z^1_n + \lambda _2 z^2_n,(2)

其中 λ 1 和 λ 2 是权重,\lambda _1,\lambda _2\in \mathbb{R}^+\lambda _1+\lambda _2=1

给定年龄区间 [a, b],标签 y_n ∈ [a, b] 和具有统一间隔 K 的 bins \begin{Bmatrix} { z^m } \end{Bmatrix}y_n 可以表示为 z^1_n = \left \lfloor \frac{ y_n}{K} \right \rfloor \cdot KZ^2_n=\left \lceil \frac{y_n }{K} \right \rceil \cdot K,其中 ⌊ · ⌋ 和 ⌈ · ⌉ 是 floor 和 ceiling 函数。 因此,系数 λ 1 和 λ 2 计算为

\lambda_1 = 1 - \frac{y_n-z^1_n}{K} = 1 - \frac{y_n - \left \lfloor \frac{ y_n}{K} \right \rfloor \cdot K}{K}

 \lambda _2 = 1-\frac{Z^2_n-y_n}{K} = 1- \frac{\left \lceil \frac{y_n }{K} \right \rceil \cdot K-y_n}{K}\quad(3) 

例如,如图 3 所示,给出了 K = 10(图 3 中的第二行)或 K = 20(图 3 中的第三行)对应表示的 68 和 74。 如果 K = 10,则 bin 集合为 { 10, 20, 30, 40, 50, 60, 70, 80 } 且 yn 为 68,则对应的向量表示为 y_n = [0, 0, 0, 0, 0, 0.2, 0.8, 0]。此操作将分配分配给标签,并且不会产生任何额外的分配标签成本。此外,two-points representation 的分布是稀疏的。

实际上,λ 1 和λ 2 表示属于两个 bin 的概率,其中包含丰富的分布信息。年龄估计的主要趋势包括两个方面:同时分类和回归,以及分布学习。 对于前者,根据上面的图 3,68 更有可能属于 bin 70 而不是 bin 60。Two-points representation 可以自然地消除这个问题的歧义。对于后者,一些方法使用分布匹配以获得更好的结果。但是,这需要大量标记才能获得资源占用非常高的分布。

更重要的是,two-points representation 得到的是两个相邻的 bin,而不是任何其他两个或多个点,并且两个相邻的 bin 分配有非零元素。事实上,线段中的每个点/年龄都可以用多个点来表示,其中组合的数量非常多样化。 每个点也可以用两个点或任何其他更多点来表示。 然而,这些组合可能不是我们想要的,例如,50 = 0.5×0+0.5×100 = 0.2×10+0.2×40+0.2×60+0.2×90。 对于年龄估计,这些表示是无用的。 对于深度回归模型,需要消除这些组合。

从上面的部分,年龄值 y_n 可以表示为分布向量 \textbf y_{n} 。然而,\textbf y_{n} 的组合是多样化的。 Two-points representation 适合用于控制它。下一个问题是如何将向量信息嵌入到端到端网络中。 作者通过图 2 所示的级联模型实现这一步。具体来说,在特征层 \textbf y_{n} 和回归层 y_n 之间插入一个具有语义分布的全连接层。 从特征 X 到年龄值 y 的映射 f 可以分解为两个步骤 f_1f_2 ,即 f = f_2f_1。 实际上, 整个过程可以表示为:\textbf I_n \overset{Conv}{\rightarrow} \textbf X \overset{\textbf W_1}{\rightarrow} \textbf y_n \overset{\textbf W_2}{\rightarrow} y_n

在这里,作者为两个级联任务定义了两个损失。 第一个测量真实标签和预测年龄分布之间的差异。 采用 KL-Divergence 作为度量,

L_{kl}(\textbf y_n, \mathbf{\hat{y}_n}) = \sum_{n}^{}D_{KL} (\mathbf{y}_n|\mathbf{\hat{y}_n})+\lambda || \mathbf{W_1}||_1 =\sum_{n}^{}\sum_{k}^{}\mathbf{y}^k_n log \frac{\mathbf{y}^k_n}{\mathbf{\hat{y}}^k_n} + \lambda || \mathbf{W_1}||_1,(4)

其中 \mathbf{W_1} 是从连接特征 \mathbf{X} 到分布 \mathbf{\hat{y}}_n 的映射f_1 的权重,λ 用于控制 \mathbf{\hat{y}}_n 的稀疏性。 第二个损失控制最终年龄的预测,并作为 L1 distance(MAE 损失)实现,

L_{reg}(y_n,\hat{y}_n)=\sum_{n}^{}||y_n - \hat{y}_n||.(5)

在训练过程中,两个损失函数以级联方式训练,如图 2 所示。 但是它们仍然是联合训练的,总损失为

L_{total} = \alpha L_{kl} + L{reg}(6)

其中 α 是平衡两个损失的超参数。 在多样化组合的情况下,级联训练可以适当地控制分布 \mathbf{\hat{y}}_n

3.4. 基于上下文的回归模型

小尺度图像的分辨率和大小是有限的。 在不同的粒度级别上利用面部信息是必要的。 如图 1 所示,每个裁剪后的图像在脸上都有一个特殊的视图。 高分辨率的图像包含丰富的局部信息,而低分辨率的图像可能包含全局和场景信息。 除了在 SSR 中选择一个对齐的面部中心之外,我们还裁剪了三个粒度级别的面部中心,如图 2 所示,然后将它们输入到共享的 CNN 网络中。 最后,通过串联和级联模块聚合三尺度面部图像的 bottlenecks。

3.5. 讨论

在本节中,作者总结了两个针对小规模图像和模型的重要经验指南。将在下一节中通过实验来证明。

残差模块:对于小规模的图像和模型,残差模块是否必要?至少对于年龄估计数据集来说,它不是。具有捷径策略的残差模块首先由设计来解决梯度消失问题,特别是在非常深的网络上。它的捷径能力只有在涉及到足够多的层时才能显现出来。小尺寸模型通常只包括浅层。根据作者的实验,普通卷积上的公共连接对于小图像和模型就足够了。这个讨论提醒我们重新思考深度学习中的apparent ideas,尤其是在小尺寸图像和模型上。

SE 模块:squeeze-and-excitation (SE) 模块已被许多工作验证用于大规模图像。而对于小尺寸图像和模型,它也能很好地工作。所以我们将 SE 模块集成到我们的网络中,并且它只需要很少的参数。例如,当squeeze factor 为 2 时,每个SE模块的参数只有 32*16*2 = 1024。

4. 实验

实验由三部分组成。第一部分是使用普通模型对 SSR、MobileNet-V2、ShuffleNet-V2 和 C3AE 进行比较的消融实验 I。第二部分给出了关于级联模块和基于上下文的模块的必要性的消融实验 II。最后一部分主要提供与一些最新技术的比较。

4.1. 数据集

作者研究了三个数据集的年龄估计:IMDBWIKI、Morph II 和 FG-NET。遵循文献 SSR、DEX 和 Hot 中的约定,WIKI-IMDB 用于预训练和消融研究。因为 Morph II 是最流行和最大的年龄估计数据集,作者选择它进行消融研究。 Morph II 和 FG-NET 用于与最先进的技术进行比较。

IMDB-WIKI 是最大的带有年龄标签的面部数据集,总共包含 523, 051 张图像。范围从0到100。它分为两部分:IMDB(460、723张图片)和WIKI(62、328张图片)。然而,它不适合对年龄估计的性能评估,因为它包含更多的噪声。因此,根据之前的工作,例如 SSR和 DEX,我们仅将 IMDB-WIKI 用于预训练。

Morph II 是最流行的年龄估计数据集,它有大约 55,000 张带有年龄标签的 13,000 名受试者的面部图像。年龄范围从 16 到 77 岁(平均每个受试者 4 张图像)。与之前的一些工作类似,作者将数据集随机划分为两个独立的部分:训练 (80%) 和测试 (20%)。

FG-NET 包含 1, 002 张来自 82 个非名人对象的人脸图像,这些对象的光照、姿势和表情变化很大。年龄范围从 0 到 69 岁(平均每个受试者 12 张图像)。由于 FG-NET 的规模较小,以前的一些方法通常使用 leave-one-out setting,需要训练 82 个深度模型。在此设置下,大约有 12 个样本用于测试。这里作者随机选择 30 个样本作为测试集,其余的用于训练。作者将这种拆分重复 10 次并计算它们的平均性能。

4.2. 实施细则

继 SSR 和 DEX 之后,该模型首先在 IMDB 和 WIKI 数据集上进行预训练,大小为 64 × 64 × 3。在所有实验中,均采用 Adam 优化器。在第一个消融研究中,由于 C3AE 的普通模型与其他普通模型进行了比较,每个模型都训练了 160 个 epoch,batch size 为 50。与 SSR 类似,初始学习率、dropout 率、动量和权重衰减为分别设置为 0.002、0.2、0.9 和 0.0001。在 0.0001 的变化值上,学习率降低了回归值的一个因子,patience epochs 10。

在第二个消融研究中,为了与最先进的方法进行比较,每个模型总共训练了 600 个 epoch,batch size 为 50。我们使用 “Random erasing data augmentation” 中的策略,随机丢弃输入块图像。在此阶段,初始学习率、dropout 率、动量和权重衰减分别设置为 0.005、0.3、0.9 和 0.0001。在 0.0005 的变化值上,学习率降低了回归值的一个因子,patience epochs 为 20。在 SSR 之后,评估标准是平均绝对值 (MAE)。方程中 6 的因子 α 在所有实验中设置为 10。对于所有级联模型,方程 3 中的 K 设置为 10。

4.3. 消融研究

消融研究分两部分进行。对于第一个,C3AE 的基础模型与 SSR、MobileNet-V2 和 ShuffleNet-V2 进行了比较,以证明标准卷积产生了有竞争力的性能,甚至比 MobileNet-V2 和 ShuffleNet-V2 等流行模型更好。我们进一步研究残差模块和 SE 模块是否可以使小型网络受益。第二部分,作者对两点表示和上下文模块的必要性进行了消融研究。

4.3.1 消融研究 I:C3AE 的基础模型

这部分包括三组实验:我们的基础模型、SSR、MobileNet-V2和ShuffleNet-V2的比较;有/无残差模块比较;并比较有/没有 SE 模块。

表2中给出了三种方法(SSR、MobileNet-V2 和 ShuffleNet-V2)在 Morph II(M-MAE)、IMDB (I-MAE) 和 WIKI (W-MAE) 上的结果。为了公平比较,我们实施了广泛的因子组合(Comb.)。在选项卡中。 表2中,对于 MobileNet-V2 (M-V2) 2 ,(\alpha _{pw}, \alpha _{exp}) 分别表示逐点过滤器的数量和每个扩展层的扩展因子。对于 ShuffleNet-V2 (S-V2) 3 ,(\alpha _{pw}, \alpha _{exp}) 分别表示每个阶段的瓶颈模块输出通道的比率和每个阶段输出通道的比例因子。从比较中得出结论,我们的普通模型即使在参数(Param.)和内存最小的情况下也能获得最好的结果,而不管替代三种方法中的参数调整如何。

作者还从MACC和运行时速度两个方面给出了速度分析。前者是多加运算的理论次数。后者是在CPU(Intel Xeon 2.1GHZ)和GPU(Titan X)相同条件下(向前单张图像2000次然后平均)测得的速度。比较显示在表 3 中。

如图 4 所示,C3AE 的基础模型始终优于 SSR、ShuffleNet-V2 和 MobileNet-V2,但验证损失较低(橙色的 val 损失,蓝色的训练损失)。更多例子可以在补充材料中找到。对于带有深度卷积的 MobileNet-V2 和 ShuffleNet-V2,绝不比 C3AE 带有标准卷积的普通模型差。另外,有一个奇怪的观察结果,\alpha _{exp} = 4 的结果优于 \alpha _{exp} = 6。我们认为太大的倒置 bottleneck 可能不适合小尺寸模型。对于 SSR,也使用标准卷积。但是,它的完整模型仍然不如 C3AE 的普通模型。此外,C3AE基础的训练损失和验证损失之间的差距最小。这表明该基础模型具有更好的泛化能力。所有这些观察都表明了 C3AE 的基础模型的有效性。虽然基础模型足够简单,没有任何花里胡哨的东西,但它仍然可以获得非常有竞争力的性能。

作者进一步研究了残差连接和 SE 模块的有效性。根据表 4 中的结果和补充材料中的比较,我们观察到残差模块在小尺寸模型中没有好处,特别是对于年龄估计的三个数据集。而 SE 模块适用于小尺寸模型。

4.3.2 消融研究 II:级联和上下文模块

在本节中,作者分析级联模块(two-points representation)和上下文模块的选择如何影响年龄估计的性能。

Two-points representation 的结果通过级联训练实现,即有/没有级联模块。如图 5 所示,不考虑等式4 中选择的正则化 λ,使用 casacde 模块的结果始终优于没有级联的结果。如果进一步应用上下文模块(Cascade + Context),它将优于其他两个。验证证明了两点表示和上下文模块的重要性。

具体来说,我们在图 6 中给出了一些例子。GT 表示真实值,图例给出了预测的年龄。 X 轴是学习到的权重\mathbf{W}_2,Y 轴是预测向量 \mathbf{\hat{y}}_n 。他们的点/内积是预测的年龄。我们可以看到,学习到的权重几乎相当于 groundtruth bins \mathbf{W}_2 = [10, 20, 30, 40, 50, 60, 70, 80]。也就是说,\mathbf{W}_2 控制了两点表示,从而消除了多样化的组合。预测 bin 的最后一个元素非常奇怪,即 92.73、55.49。经过对数据分布的分析,作者发现 [70, 80] 范围内只有9个样本,很容易解释为什么最后一个元素异常。由于两点表示,预测分布是稀疏的,只有两个或三个相邻的非零元素。全连接层会导致每个年龄都可以用很多不同的组合来表示的现象。

此外,如图 6 所示,作者还观察到顶部的预测分布和年龄优于底部的预测分布和年龄。条形、图例和分布的颜色对应于顶部图像上的彩色边界框。基于上下文的模型(顶部)比单尺度输入(底部)实现了更好的性能。

最后,为了展示模型的通用性,作者在完整模型上将超参数 α 微调为 5、8、10、12 和 15,相应的结果分别为 2.79、2.79、2.75、2.79 和 2.80。 这些结果并没有太大变化。 它显示了模型的稳健性。

4.4. 与 MorphII 上的最新技术比较

在本节中,作者进一步将模型与 Morph II 上的最新模型进行比较。如表 5 所示,C3AE 的完整模型在以下条件下实现了 2.78 和 2.75 MAE:从头开始训练并在 IMDB-WIKI 上进行预训练,这是紧凑模型中最先进的性能。之前在紧凑模型中获得的最佳性能是 SSR 中的 3.16。表 5 中的一些结果来自 SSR。事实上,C3AE 的普通模型即使没有任何花里胡哨的东西也能达到 3.13 MAE。所有其他紧凑模型的结果都在 IMDB-WIKI 上进行了预训练。C3AE 在有/没有预训练过程的结果非常相似。Morph II 的大小足够去训练小模型。另一方面,结果与笨重的模型相比更具竞争力,甚至超过了几个笨重的模型,尽管它只消耗了模型大小的 1/2000。所有庞大的模型都使用 VggNet 在 ImageNet 或 IMDB-WIKI 上进行了预训练。C3AE 没有预训练过程的结果甚至超过了一些预训练的庞大模型。总的来说,C3AE 在 Morph II 上以极轻的模型获得了非常有竞争力的性能。

4.5. 与 FG-NET 上的最新技术比较

如表 6 所示。作者将 C3AE 的模型与 FG-Net 上的最新模型进行比较。没有训练 82 个模型,而是随机重复实验 10 次。这也很有挑战性,因为作者使用的训练数据集较少。实际上,表 6 中的 Han、Luu 也使用不同的拆分。使用均值方差损失,带有预训练过程的 MV 获得了 2.68 的最佳结果。作者使用预训练过程的结果是 2.95 MAE 和 0.17 std,即与 Bulky 模型相比,性能第二。此外,在没有任何预训练过程的情况下,C3AE 4.09 的结果略好于 MV 的 4.10。总的来说,在 FG-NET 上的验证证明了 C3AE 的有效性。

5. 结论

在本文中,作者提出了一个紧凑模型 C3AE,它在紧凑模型中实现了最先进的性能,在 Bulky 模型中实现了具有竞争力的性能。从各种消融研究中,作者已经证明了 C3AE 的有效性。对于中小尺寸的图像和模型,给出了一些分析和反思。在未来的工作中,将评估对一般数据集和应用程序的观察的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值