PupilTAN: 一种Few-Shot的对抗性瞳孔定位器


前言

本文为翻译搬砖和总结一些自己的心得体会。


作者:
在这里插入图片描述
发布于2021年

摘要

眼睛中心定位是许多计算机视觉应用所面临的一个挑战性问题。阴影通常源于场景的可变性,例如,广泛的形状、照明条件、视角和遮挡。如今,对深度神经网络的兴趣与日俱增,需要大量的训练数据。然而,一个重要的问题是对标记数据的依赖性,这些数据获取成本高,容易出错。为了解决这些问题,我们提出了一个名为PupilTAN的深度网络,该网络执行图像到热图的转换,以及一个对抗性训练框架,该框架以几次无监督的方式解决眼睛定位问题。关键的想法是,通过只使用几张地面实况照片来估计热图中心的pdf,并将其用作生成器来创建遵循真实热图相同概率分布的随机热图。我们展示了在对抗性框架中使用这些人工热图训练深度网络不仅可以减少我们对标记数据的依赖,而且可以显著提高准确性。所提出的网络在通用计算机环境中实现了实时性能,并提高了MUCT和BioID数据集的最新精度,即使与监督技术相比也是如此。此外,我们的模型即使在将其大小减小到原始网络的1/16(0.2M个参数)的情况下也具有鲁棒性,显示出与最先进技术相当的精度,对实时应用具有很高的实用价值。

1.引言

过去几十年来,计算机系统的巨大进步及其在人类生活几乎每个方面的渗透,不可避免地引起了人们对改进人机交互(HCI)的兴趣。利用眼睛注视的系统提供了一种方便的自然交互方式,无需物理接触。眼睛构成了人类面部最显著的特征,而相对于头部姿势和凝视的虹膜位置是关于人类认知和情感状态的重要信息来源。具体而言,有关眼睛中心位置的信息通常用于面部对齐、残疾人控制设备和用户注意力(例如,驾驶和营销)等应用[1,2]。此外,通过将注视角度(滚动、偏航)转换为3D注视向量,可以利用眼睛中心坐标来估计注视[3]。尽管在这一领域进行了积极的研究,但由于许多限制因素降低了检测到的眼睛中心的准确性,精确的眼睛中心定位和跟踪仍然是一个具有挑战性的问题。这些限制与人眼的形状和颜色、眼睛状态(打开或关闭)、虹膜方向、面部表情、头部姿势等的变化有关。在头发、眼镜、反射和阴影遮挡的情况下,定位精度也会降低,并且会受到照明条件和相机分辨率的强烈影响。

在实时应用中,精确的眼睛定位和跟踪变得更具挑战性,因为实时性能的需求至关重要。获取高质量的数据来训练受监督的眼睛定位器是一项艰巨而富有挑战性的任务。此外,标签在无意中且通常不可避免地会出现人为错误(即,不准确的地面真相标签)。另一方面,有大量未标记的眼睛数据可以免费获得。

在本文中,我们介绍了一种新的框架,Pupil-TAN,它试图以无监督的方式解决眼睛定位问题。无监督学习是一种表现出自组织性的算法,可以捕获未标记数据中包含的隐藏模式。与打算根据输入数据的标签推断条件的监督学习不同,无监督学习打算引入先验概率分布。

在此背景下,我们将眼睛定位问题视为热图回归的图像,并利用所需热图的特殊形式。具体而言,我们将其视为具有恒定标准偏差的二维各向同性高斯核;它的中心被认为是一个正态随机变量,其pdf是通过使用一小部分可用的地面真相样本来估计的。我们在续集中提出的对抗性框架利用了这些知识,旨在以无监督的方式训练翻译者网络,以捕获传入数据的概率密度。据我们所知,这是文献中首次尝试(如果不是第一次),即采用对抗性框架在无人监督的情况下解决眼睛定位问题。这项工作的主要贡献总结如下:

  • 一种用于无监督眼睛定位的新型对抗性框架。
  • 在两个公开可用的数据库中,优于最先进的技术。
  • 显著减少网络规模,在实时应用中具有很高的实用价值。

2.相关工作

在本节中,我们回顾了有关眼睛中心定位和生成对抗网络(GAN)的相关工作。眼睛定位方法大致可分为以下两大类:

  • 基于特征的方法和
  • 基于外观的方法。

基于特征的方法使用先验知识从基于形状、几何、颜色和对称性的简单相关特征中检测候选眼睛中心。这些特征是通过在图像上应用特定滤波器获得的,不需要任何学习或模型拟合技术。Valenti等人[4]提出了等轴曲率的概念,作为检测眼睛位置的投票方案。Ra刻度盘对称算子也被用于眼睛检测;它们通常与其他运算符组合[5,6]。在工作[7,8]中,提出了一种改进的快速径向对称变换(MFRST)。它强调虹膜的形状,并结合边缘保持滤波产生的边缘信息和强度信息,以找到具有高径向对称性的形状。通常,基于外观的方法使用眼睛整体外观和周围结构的先验模型,并尝试通过拟合训练模型来检测眼睛的位置。为此,已经提出了许多机器学习算法,如贝叶斯[9]和隐马尔可夫模型(HMM)[10]、支持向量机(SVM)[11]和AdaBoost[12]。Markus等人[13]通过使用随机回归树集合来定位瞳孔。卷积神经网络(CNN)最近在用作眼睛检测器方面引起了人们的兴趣。在Fuhl的[14]研究中,使用两个相似的卷积神经网络进行了从粗到细的瞳孔定位。第一个提供瞳孔的粗略位置,而第二个使用较小的子区域作为输入来细化该位置。Li等人在[15]中还提出了两阶段CNN来确定最可能的眼睛区域并定位它们的中心。在过去几年中,Deep CNNs也取得了一些进步。Xia等人[16]提出了一种具有大核卷积块的FCN,以使用热图定位眼睛中心。在[17]和[18]中,提出了一种深度FCN管道,该管道使用经过训练的异质CNN模型来检测面部、移除眼镜、提取面部标志并最终定位瞳孔中心。

最近在[19]中引入的生成对抗网络旨在从大量数据中发现潜在分布。此类模型已用于多个任务,如图像生成[20]、图像合成[21]、文本到照片的翻译[22]和图像到图像的翻译[23]。

图像到图像翻译的任务包括学习如何将给定的源图像映射到特定的目标图像。学习从一个视觉表示到另一个的映射需要理解这些表示之间共享的基本特征[24]。这些方法可进一步分为监督和非监督方法。一种有监督的方法需要一组不同域中的成对图像,并且模型学习从一个域到另一个域的概率分布。Pix2Pix[25]是一种基于条件生成对抗网络的监督图像到图像转换方法。生成器使用类似“U-Net”的架构,Discriminator使用基于卷积的“PatchGAN”作为分类器。无监督的图像到图像翻译旨在学习两个或多个域之间的映射,而无需配对图像。由于其能够学习图像到图像转换问题中的交叉映射,最近对其进行了深入研究。CycleGAN[23]旨在学习来自两个不同域的一组未配对图像之间的映射。其架构基于两个翻译器和两个鉴别器的对称结构,并执行两个映射:从输入域到目标域的正向循环映射和反向循环映射。Robinson等人[26]提出了一种基于图像到热图转换的拉普拉斯人脸标记定位器,并使用基于未标记数据训练的对抗性框架提高了其模型精度。尽管兴趣越来越大,但由于难以在没有注释的情况下定位对象,无监督定位仍然具有挑战性。我们的工作试图通过将眼睛定位问题转化为图像到热图的转换,并通过使用与真实热图相同的pdf导出的随机人工热图训练生成性对抗网络来克服这一障碍。我们认为,在图像到热图转换的情况下,配对热图的pdf可以被估计,最初只使用几个地面真实样本,然后使用未标记的图像以无监督方式进行训练。

3.建议的解决方案

在本节中,我们将详细描述眼睛定位问题的建议解决方案。为此,我们首先将手头的问题重新表述为图像到热图回归问题。为了实现我们的目标,我们考虑了人眼中心周围区域的理想化,该区域可以通过热图进行建模,热图的中心与眼睛中心重合,其标准偏差由虹膜的大小控制。我们的主张通过图1(a-c)的内容得到了验证,我们可以看到一个示例。


在这里插入图片描述
图1. 眼睛中心周围的区域(a),通过热图模拟的理想化,热图的中心位于真实眼睛中心所在的像素,std等于覆盖虹膜区域的圆的半径(b),以及PupilTAN实现的假热图(c)


特别是,我们将眼睛定位问题重新表述为图像到热图回归问题,并使用所需热图的特殊形式。我们证明,我们可以使用相同pdf中随机创建的热图,而不是使用成对的地面真相来训练图像到热图定位器。具体而言,我们将它们视为具有恒定标准偏差的二维高斯核,其中心视为正态随机变量,其pdf通过使用少量可用地面真实数据来估计。

基于我们的主张,提出了一种对抗性框架,该框架利用先验知识,旨在以无监督的方式训练深度神经网络,仅使用少数地面真实样本。

最后,我们将介绍实现细节,包括网络架构和培训过程。

3.1.预处理

为了将眼睛中心定位问题转化为图像到热图回归问题,我们提出了以下预处理步骤。具体而言,在训练集的每个图像中,在流水线的第一阶段,使用Viola和Jones提出的实时人脸检测器检测人脸[27],而在第二阶段,基于人脸几何结构选择双眼感兴趣区域(ROI)[7],[8]。然后,将每个ROI的大小调整为64×64像素,并将其转换为灰度图像,以便为转换器提供数据。对于每一幅这样的图像,翻译器的目标是预测一幅相同大小的热图,其值指示眼睛中心位置的每像素置信度。达到其最大值的位置对应于预测的眼睛中心坐标。

很明显,由于对于每个图像都有一个地面真眼中心xgt,我们可以通过使用核函数(如高斯函数)导出相应的热图,如下所示:
在这里插入图片描述
这里,x属于ROI,σ是决定热图宽度的内核的标准偏差。由于上述预处理,虹膜的大小变化很小,可以从检测到的面部大小推断出其近似大小[6]。我们将这个超参数设置为σ=7,这表示预期的虹膜半径。

注意,通过遵循这样的方法,我们为深度神经网络的训练创建了一个适当的监督框架,以解决眼睛中心定位问题。然而,这反过来又要求存在一大组注释图像(即,对于该组的每个图像,必须给出地面真实眼中心xgt),这一事实构成了超视觉训练的障碍。为了克服这一障碍,并将监督训练框架转换为几个镜头的无监督训练框架,我们将xgt视为正态分布随机变量(RV)Xc,其参数mc,∑c我们将通过使用给定地面真眼中心的小样本来估计。我们的说法是基于观察到的眼睛中心正态分布(图2)。这正是我们下一段的目标。


在这里插入图片描述
图2. 随机变量xc的最大似然估计pdf fXc(xc),由面部数据库BioID的128个黑色点地面真实眼中心和叠加在估计pdf(a)上的剩余红色点地面真实中心的小样本产生。fXc(xc)俯视图,揭示其各向同性性质(b)


估计参数mc,∑c
因此,我们的目标是估计二维高斯函数的参数。为此,让我们考虑上述RV的以下实现集合:
在这里插入图片描述
通过使用地面真眼中心的这个小样本,我们可以通过使用以下最大似然估计:
在这里插入图片描述
估算了上述参数,并且|A|表示矩阵A的行列式,我们可以使用以下pdf:
在这里插入图片描述
作为RV xc的实现Xc的生成器,使用关系式定义:

在这里插入图片描述
可以用于网络的无监督训练的热图。

在图2(a)中,描绘了随机变量xc的最大似然估计pdf fXc(xc),该随机变量从面部数据库BioID的128个地面真眼中心的小样本中获得,如图中的黑点所示。请注意,剩余的(用红点显示)地面真相中心与估计的pdf完全吻合。图2(b)所示的最终pdf的俯视图揭示了它的各向同性性质,这一事实简化了估计问题,并限制了其解决所需的地面真相的数量。

3.2.无监督的眼睛定位

让我们考虑以下一组训练图像:
在这里插入图片描述
其中该集合的每个成员Ik构成随机变量I的实现,即:
在这里插入图片描述
其中pdf fI(I)未知。创建了生成热图的机制后,我们可以形成一组大样本,让我们通过以下方式表示:
在这里插入图片描述
可用于培训图3所示的翻译通用网络(TAN)。整个网络由翻译器和识别器子网络组成。在这样的深度架构中,在训练阶段,网络的平移部分的目标H(x|I(x))=T(I(x;θ)) ,是通过一组参数θ对热图H(x|I(x))的未知pdf fH|I(H)进行建模。


在这里插入图片描述
图3.PupilTAN深度架构


转换器试图通过生成尽可能合理的图像来混淆鉴别器,同时,鉴别器通过一组参数θ以完全对抗的方式试图将假翻译热图与真实热图区分开来,从而迫使译者生成尽可能接近“真实”热图的热图∼ fH(H)。为此,我们将使用[19]提出的以下对抗性损失函数:
在这里插入图片描述
并解决以下最小−最大优化问题:
在这里插入图片描述

3.3.网络架构

如图3所示,翻译对抗网络由翻译者和讨论者子网络组成。转换器是一个三级编码器-解码器网络,可以充分利用分层特征表示,将输入图像转换为相应的空间理想化,即热图。编码器包括卷积块的金字塔结构,随后是批量归一化、校正线性和最大池化层,以提取不同尺度的不同几何信息。特别地,第一层由128个信道组成,并且在每个阶段之后,信道被加倍,以便整个网络能够有效地学习复杂结构。另一方面,解码器使用转置卷积对不同尺度上的特征图进行上采样,从而将通道数量减少了两倍。除最后一个卷积外,所有卷积之后还进行批量归一化和校正线性层。最终特征图被馈送到具有tanh(.)激活函数的单通道卷积层中,以聚集更好的多尺度信息并获得最终回归图。

鉴别器由4个分数跨步卷积层组成,随后是批量归一化层(除第一层外)和负斜率设置为0.2的泄漏校正线性层。第一层由128个通道组成,每个阶段后通道加倍。最后,一个单信道卷积层跟随一个S形激活函数,形成鉴别器的输出。为了防止两个网络过度拟合,我们在转换器的解码器部分之前和鉴别器的顶部添加速率为pdrop=0.5的Dropout层。

所提出的框架针对300个时期和128幅图像的批量大小进行了训练。我们使用ADAM优化器[28],初始学习率为2×10−4和动量项β1=0.5和β2=0.999。为了加快训练过程,我们使用了Nvidia GeForce GTX 1080 Ti GPU。

4. 实验

4.1. 实验装置

为了评估所提出方法的性能,在两个公开可用的人脸数据库中进行了实验。具体而言,所选的MUCT[29]和BioID[30]数据库是最具挑战性和最具特征的数据集之一,并广泛用于先前的眼中心定位技术。由于极端姿势,面部检测器未能检测到面部的图像被排除在实验之外(MUCT为2%,BioID为5.96%)。MUCT人脸数据库由3755张低分辨率(640×480像素)彩色正面或近正面人脸图像组成,包含各种年龄、种族和光线条件。使用来自不同位置的五个网络摄像头获取图像,导致姿势变化。这与头发、眼镜和反射的遮挡相结合,极大地增加了其“难度”因素。BioID数据库由23名受试者的1521张灰度图像组成,这些图像是在一天的不同时间用低分辨率相机(384×288像素)在不同位置拍摄的。面部的大小、位置和姿势各不相同。此外,许多受试者都戴着眼镜,而在某些情况下,眼镜上的强烈反射使眼睛紧闭或隐藏。因此,BioID被认为是最具挑战性的数据库之一。为了进行眼睛中心定位,手动移除了29张包含完全闭上眼睛的图像。

为了评估所提出方法的准确性,我们采用了归一化误差,表示双眼的最差眼中心估计。归一化误差(e)定义为[31]:
在这里插入图片描述
其中,CL,CR是应用提出的方法得出的左眼和右眼中心坐标的估计值,CL,CR是手动标记的校正响应坐标。||CL− CR||2项表示两个真实眼睛中心之间的距离,并用作定位误差的归一化因子。算法的准确度由低于指定误差阈值的眼中心定位数量与它们的总数之间的比率表示。阈值e≤ 0.25表示眼睛中心和眼角之间的距离,e≤ 0.1表示虹膜和e的范围≤ 0.05表示瞳孔面积。

4.2.实验结果

对所提出方法的评估使我们得出了一种鲁棒且高度精确的定位方法的结论。该方法成功地处理了最棘手的情况,包括阴影、姿势变化、头发遮挡或强烈反射、平面外旋转和眼镜的存在(图4)。


在这里插入图片描述
图4.MUCT(a)和BioID(b)数据库上的精确眼中心定位结果


4.2.1与最先进技术的比较

将所提出的方法与最先进的方法进行比较,结果如下表所示。下面比较技术的所有精度均为已发表的精度。为了评估所提出方法的准确性,采用了5倍交叉验证。该验证是通过将每个数据集随机划分为5个相等的子集,并保留每个单独的子集用于验证,其余的子集用于训练来执行的。以下所有表格提供了所提出方法在准确性方面优越性能的支持证据。表1包含在MUCT数据库上应用所提出的方法和其他相关工作获得的结果。很明显在消减的数据集图片上,与最佳方法相比,所提出的方法在精细精度水平(e≤ 0.05). 在BioID人脸数据库的低分辨率图像中,PupilTAN的性能如表2所示,并与最先进的技术进行了比较。所提出的技术在高精度水平(e≤ 0.05),而对于e的情况,其性能几乎与最佳方法相同[16](略低0.19%)≤ 0.1.上述结果使我们得出结论,与最先进的方法相比,所提出的方法有了显著的改进。


表1.MUCT数据库中的精度与标准化误差
在这里插入图片描述


在BioID人脸数据库的低分辨率图像中,PupilTAN的性能如表2所示,并与最先进的技术进行了比较。所提出的技术在高精度水平(e≤ 0.05),而对于e的情况,其性能几乎与最佳方法相同[16](略低0.19%)≤ 0.1.上述结果使我们得出结论,与最先进的方法相比,所提出的方法有了显著的改进。


Table 2. Accuracy vs. normalized error in the BioID database
在这里插入图片描述


4.2.2与受监督的对应方的比较

为了突出拟议的全面培训框架的有效性,在本段中,我们通过执行图像到图像回归,与以受监督方式培训的同一网络进行比较。具体而言,我们使用配对ROI图像和从等式(1)得出的相应热图来训练所提出的编码器-解码器部分。作为损失函数,我们采用估计热图和实际热图之间的L2范数。为了公平比较,我们使用相同的网络架构和具有默认训练参数的ADAM优化器[28]。在BioID数据库上进行的实验(如表3所示)表明,在无监督的情况下,所提出的无监督对抗性框架比相应的有监督的对抗性框架好1.64%≤ 0.05.

一般来说,无监督方法与有监督的反部分相比表现较差,这主要是由于缺乏基本事实数据。然而,表3中的结果使我们得出结论,即所提出的无监督框架成功地估计了真实热图的概率分布,并缓解了上述问题。通过这种方式,Adversarial网络实现了对眼睛特征的更好概括,并避免了过度拟合训练数据,从而提高了定位精度。注意,我们的目的不是分析防止过度拟合和提高监督方法的定位精度的方法,而是强调使用所提出的对抗性框架的优势。


表3.拟议的对抗性框架和相应的监督框架之间的准确性比较
在这里插入图片描述


4.2.3与不同架构的比较

在本节中,我们分析了减少网络参数对BioID数据库中所提出方法准确性的影响。具体来说,我们通过将每个卷积层的信道数量减少两倍来减小转换器的大小。尽管表4中的精度有所下降,但即使是具有0.2M参数的最小模型,其精度仍与其他最先进的方法相当。请注意,添加更多参数或层后的性能会饱和。因此,就网络复杂性而言,与其他深度网络相比,PupilTAN显著降低。具体而言,[18]和[17]中提出的架构分别包含13.6M和4.9M,仅用于面部检测和眼镜移除网络,而不考虑眼睛定位网络。此外,当网络大小减小时,处理速度也会增加。例如,转换器只需要16ms(Matlab实现)就可以处理最小网络的每个输入人脸图像。


表4.BioID数据库中不同架构的PupilTAN性能
在这里插入图片描述


5.结论

在本文中,我们介绍了PupilTAN,这是一种少镜头对抗性训练框架,它执行图像到热图的转换,以实现精确的眼睛定位。为了克服标记数据的依赖性,该框架旨在根据一些地面真相创建人工热图,这些热图遵循真实数据的相同概率分布,并训练翻译者精确定位眼睛中心。在两个具有低分辨率图像的公开可用数据库上对所提出的方法进行了广泛的评估,其中包含许多不同的挑战性情况。与现有方法的比较表明,与受监督的最先进技术相比,准确度显著提高。此外,通过显著减少深度网络的参数数量,所提出的深度网络的鲁棒性得到了强调。

考虑到所提出的方法实现的实时性能,我们认为这种方法可以结合到低成本的眼动仪中,其中定位精度至关重要。


博主总结

这篇同样是2021CVPR Workshop(Gaze Estimation and Prediction in the Wild)的一篇文章, 文章中提出了一种基于对抗神经网络的无监督的学习方案,通过类似styleGan的训练方法将原始的眼睛图片转换为热图,最高值的地方对应瞳孔中心。引人注目的是该论文提出的方法比有监督方法得到模型的预测准确率更高,且网络参数更少,运行速度更快,该方法对实时的瞳孔中心预测的预测具有重要意义。


论文原地址:https://openaccess.thecvf.com/content/CVPR2021W/GAZE/papers/Poulopoulos_PupilTAN_A_Few-Shot_Adversarial_Pupil_Localizer_CVPRW_2021_paper.pdf


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值