《Accurate eye center localisation by means of gradients》论文阅读

最新推荐文章于 2022-07-24 22:03:30 发布

大饼子Wong

最新推荐文章于 2022-07-24 22:03:30 发布

阅读量1.3k

点赞数 2

分类专栏：视线追踪文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_42009267/article/details/105484110

版权

视线追踪专栏收录该内容

27 篇文章

订阅专栏

题目：Accurate eye center localisation by means of gradients
作者：Fabian Timm and Erhardt Barth
来源：Published in VISAPP 2011 Computer Science

利用梯度进行精确的眼心定位

摘要
1.介绍
2.眼中心定位
2.1.先验知识和后处理

3.评估
3.1.结果
3.2.与最先进水平的比较

4.结论

关键词：眼睛中心定位，瞳孔和虹膜定位，图像梯度，特征提取，形状分析。

摘要

眼睛中心的估计用于几种计算机视觉应用，例如人脸识别或眼睛跟踪。特别是对于后者，偏远且依赖于可用光的系统已经变得非常流行，并且已经提出了几种精确定位眼睛中心的方法。然而，在低分辨率、低对比度或遮挡等困难场景下，这些方法往往无法准确估计眼睛中心。因此，我们提出了一种利用图像梯度进行精确而稳健的眼睛中心定位的方法。我们推导了一个简单的目标函数，它只由点积组成。该函数的最大值对应于大多数梯度矢量相交的位置，从而对应于眼睛的中心。虽然简单，但我们的方法对尺度、姿态、对比度和光照的变化都是不变的。我们在眼睛中心和虹膜定位的非常具有挑战性的BioID数据库上对我们的方法进行了广泛的评估。此外，我们将我们的方法与各种最先进的方法进行了比较，证明了我们的方法在准确性和鲁棒性方面都有了显著的提高。

1.介绍

眼睛中心的定位在许多计算机视觉应用中具有重要意义，例如人机交互、人脸识别、人脸匹配、用户注意力或凝视估计(Böhme等人，2006年)。眼球中心定位有几种技术，其中一些使用头盔设备，另一些使用下巴休息来限制头部运动。此外，利用主动红外照明，通过角膜反射精确估计人眼中心。虽然这些技术可以非常准确地预测眼睛中心，并经常用于商业眼睛凝视跟踪器，但它们在日光应用和户外场景中不太舒服，也不那么健壮。因此，人们提出了可用于眼心检测的光线方法。这些方法大致可分为三类：(1)基于特征的方法；(2)基于模型的方法；(3)混合方法。例如，关于基于视频的眼睛检测和跟踪的调查可以在(Hansen and Ji，2010)中找到。

在本文中，我们描述了一种基于特征的眼睛中心定位方法，该方法可以有效和准确地定位和跟踪低分辨率图像和视频中的眼睛中心，例如，在用网络摄像机拍摄的视频中。我们遵循通常用于基于特征的眼睛中心定位的多阶段方案(见图1)，并且我们做出了以下贡献：(I)一种新的眼睛中心定位方法，它将(半)圆形图案的中心定义为大多数图像梯度相交的位置。因此，我们推导出在环形图案中心达到最大值的数学函数。利用这个数学公式，可以推导出一种快速迭代格式。(Ii)我们加入了眼睛外观的先验知识，增加了健壮性。(Iii)我们采用简单的后处理技术，以减少眼镜出现、眼镜内反射或眉毛突出时出现的问题。此外，通过使用极具挑战性的BioID数据库，我们评估了该方法的准确性和对光照、对比度和背景变化的鲁棒性。所获得的结果与眼部中心定位的最新方法进行了广泛的比较。
在这里插入图片描述
图1：眼中心定位的多阶段方法。首先应用人脸检测器；基于人脸位置提取粗略的眼睛区域(左侧)，然后使用这些区域精确估计每个眼睛中心(中间和右侧)。

图2：浅色背景上有一个黑色圆圈的人造例子，类似于虹膜和巩膜。在左边，位移矢量Di和渐变矢量Gido不具有相同的方向，而在右边，这两个方向是相等的。

2.眼中心定位

几何上，可以通过分析图像梯度的矢量场来检测圆形目标的中心，该矢量场已经被用于眼睛中心定位。例如，Kothari和Mitchell提出了一种方法，该方法利用了由于虹膜和巩膜之间的强烈对比而产生的流场特性(Kothari和Mitchell，1996)。它们使用每个梯度向量的方向在整个图像中绘制一条线，并且每当有一条这样的线通过它时，它们就增加一个累加器存储箱。因此，大多数线相交的累加器仓位表示估计的眼睛中心。然而，他们的方法只定义在离散的图像空间中，并且缺少数学公式。此外，他们不考虑眉毛、眼皮或眼镜引起的问题。

在这项工作中，我们还分析了图像梯度的矢量场，但推导了一种新的矢量场特征的数学表达式。因此，我们从数学上描述了可能的中心和所有图像梯度的方向之间的关系。设c为可能的中心，并给出位置xi处的梯度矢量。然后，归一化位移矢量di应该具有与梯度gi(参见图2)相同的方向(除了符号)。如果我们使用(图像)梯度的矢量场，我们可以通过计算归一化位移矢量之间的点积来利用该矢量场(与固定中心相关)和梯度矢量Gi。然后，具有像素位置Xi，i∗{1，.，N}的图像中圆形对象的最佳中心c∈由下式给出

在这里插入图片描述
将位移矢量按比例缩放到单位长度，以获得所有像素位置的相等权重。为了提高对照明和对比度中线性变化的鲁棒性，梯度矢量也应该缩放到单位长度。图3显示了不同中心的点积和的一个示例评估，其中目标函数在瞳孔中心产生一个很强的最大值。

通过只考虑幅度较大的梯度向量，即忽略均匀区域中的梯度，可以降低计算复杂度。为了得到图像梯度，我们计算偏导数gi=(∂i(xi，yi)/∂xi，∂i(xi，yi)/∂yi)T，但其他计算图像梯度的方法不会显著改变目标函数的行为。
在这里插入图片描述
图3：(1)对检测到的中心标为白色(左)的典型瞳孔的评估。目标函数在瞳孔中心处达到最大值；2维图(中)和3维图(右)。

2.1.先验知识和后处理

在某些情况下，最大值定义不明确，或者存在局部极大值，从而导致错误的中心估计。例如，占主导地位的眼睑、睫毛或皱纹与虹膜和巩膜之间的低对比度结合在一起可能会导致错误的估计。因此，我们建议加入眼睛的先验知识，以增加鲁棒性。因为与巩膜和皮肤相比，瞳孔通常是暗色的，所以我们对每个可能的中心c应用一个权重wc，这样暗色中心比明亮中心更有可能。将此集成到目标函数中会导致：
在这里插入图片描述
其中Wc=I∗(Cx，Cy)是平滑和反转的输入图像I∗在(Cx，Cy)处的灰度值。需要例如通过高斯滤波器对图像进行平滑，以避免由于明亮的离群值(例如眼镜的反射)而产生的问题。新目标函数的值对低通滤波器的参数变化相当不敏感。

如果图像包含眼睛，则建议的加权平方点积总和会产生准确的结果。然而，当应用图1中描述的多阶段方案时，粗糙的眼睛区域有时还包含其他结构，例如头发、眉毛或眼镜。特别是，头发和眼镜中的强反射显示出明显的图像梯度，与瞳孔和虹膜的图像梯度方向不同，因此对眼睛中心的估计可能是错误的。因此，我们提出了一个后处理步骤来克服这些问题。我们基于最大值对目标函数应用阈值，并删除连接到其中一个图像边界的所有剩余值。然后，我们确定剩余值中的最大值，并将其位置作为中心估计。根据我们的实验，这个阈值的值对中心估计没有明显的影响，我们建议将这个阈值设置为总体最大值的90%。

3.评估

在我们的评估中，我们选择了BioID数据库，因为它是眼睛中心定位最具挑战性的一组图像，而且许多最新的结果都是可用的。该数据库由23个不同对象的1521张灰度图像组成，在不同的地点和不同的白天拍摄，导致不同的照明条件可与户外场景相媲美。除了照明的变化外，对象的位置和姿势也会发生变化。此外，一些受试者戴着眼镜，一些受试者在眼睛中心附近有卷发。在一些图像中，眼睛是闭着的，头部离开相机，或者受到阴影的强烈影响。在少数图像中，眼睛甚至完全被眼镜上的强烈反射所掩盖。由于这些条件，BioID数据库被认为是最具挑战性的反映现实条件的数据库之一。图像质量和图像大小(286×384)大致相当于低分辨率网络摄像头的质量。左眼中心和右眼中心被注释并与图像一起提供。

我们执行图1中描述的多阶段方案，其中首先检测面部的位置。因此，我们应用了一种增强型级联人脸检测器，该检测器在几个基准测试中被证明是有效和准确的(Viola和Jones，2004)。根据检测到的人脸位置和人体测量关系，提取与检测到的人脸大小相关的眼睛粗略区域。然后，通过应用所提出的方法，使用粗略的眼睛区域来精确地估计眼睛中心。

作为估计人眼中心的精度度量，我们评估归一化误差，该归一化误差表示两个人眼估计中最差的估计所获得的误差。这一措施是由Jesorsky等人提出的。并定义为：
在这里插入图片描述
其中，el，err是估计的和正确的左眼和右眼中心之间的欧几里得距离，d是正确的眼睛中心之间的距离。在分析眼睛定位方法的性能时，该测量方法具有以下特征：(I)眼睛中心到眼角之间的距离为0.25≤，(Ii)虹膜直径为0.10≈，以及(Iii)瞳孔直径为0.05≈。因此，应该用于眼睛跟踪的方法不仅必须为e≤0.25提供高性能，而且必须为e≤0.05提供良好的结果。略小于或等于0.25的误差仅表示估计的中心可能位于眼睛内，但该估计不能用于执行准确的眼睛跟踪。因此，当与现有技术的方法进行比较时，我们将重点放在e？0.25所获得的性能上。

由于在其他一些已发表的文章中，归一化误差是以非标准的方式使用的，我们还提供了测度eBetter≤1dmin(el，Er)和eavg≤12d(el+Er)，以便给出上界和平均误差。

3.1.结果

该方法的定性结果如图4所示。可以观察到，我们的方法不仅对包含显性瞳孔的图像，而且在存在眼镜、阴影、低对比度或头发的情况下都能产生准确的中心估计。这证明了我们的方法的健壮性，并证明我们的方法可以成功地处理现实场景中出现的几个严重问题。如果眼睛(几乎)闭着或眼镜上出现强烈反射(最后一排)，我们的方法会产生不准确的估计。然后，瞳孔和虹膜的梯度方向受到“噪声”的影响，因此它们对点乘积平方和的贡献小于眉毛或眼皮周围梯度的贡献。

所提方法的定量结果如图5所示，其中显示了精度度量e、eBetter和eavg.。通过使用归一化误差的标准定义，等式。(4)本文方法的瞳孔定位准确率为82.5%(e≤0.05)，这表明我们的方法检测到的中心很可能位于瞳孔内，因此可以用于眼动跟踪应用。对于虹膜定位(e≤0.10)，估计的中心位于虹膜内的概率为93.4%，如果忽略闭眼图像，该概率将进一步增加。
在这里插入图片描述
(A)准确的眼心估计

(B)眼睛中心估计不准确

在这里插入图片描述
图5：针对BioID数据库的建议方法的定量分析。为了给出上下限，精确度与最小值(较好的眼睛，较好的眼睛)、最大值(较差的眼睛，e)和平均值(Avg。眼睛，屋檐)归一化误差显示。明确地给出了一些特征值。

3.2.与最先进水平的比较

我们广泛地将我们的方法与已经应用于生物ID图像的最先进的方法进行了比较。为了进行比较，我们评估了归一化误差e的不同值的性能，以获得特性曲线(参见图5“较差的眼睛”)，我们将其称为较差的眼睛特性(WEC)。WEC大致类似于众所周知的接收器操作员特性(ROC)，可以通过几种方式进行分析。如前所述，这取决于为了比较不同方法而应该应用的应用，例如，对于眼睛跟踪应用，需要e≤的高性能，而对于使用诸如面部匹配的整体眼睛位置的应用，比较e≤0.25时的性能将是更合适的。为了比较整体性能，即对于不同的e，可以使用WEC下的面积。不幸的是，其他方法的WEC往往是不可用的，因此我们比较了离散化的e∈{0.05，0.10，0.15，0.20，0.25}的方法。此外，我们也评估了每种方法的排名，排名与WEC下的面积大致成反比。

我们的方法与最先进的方法之间的比较显示在Tab中。1.如果作者没有明确提供e-∈{0.05，0.10，0.15，0.20，0.25}的性能，但给出了WEC值，则我们从WEC值中准确地测出了该值。注意，对于某些方法，作者仅评估了少数e值的性能，例如参见(Chen等人，2006)或(周和庚，2004)。可以看出，与对每个e的最佳方法相比，我们的方法平均性能仅差2%。例如，V alenti和Gevers提出的方法对于e≤0.05时的性能为84.1%，而我们的方法的性能为82.5%。然而，V alenti和Gevers报告说，他们的方法使用了均值漂移聚类、SIFT特征和k近邻分类器，当将其应用于每秒几张图像的眼睛跟踪时，将产生不稳定的中心估计。因此，我们的方法可以被认为是精确定位眼球中心的最佳方法之一。此外，由于我们的方法既不需要聚类，也不需要分类器，因此与瓦伦蒂和Gevers的方法相比，我们的方法的计算复杂度要低得多。与不涉及任何学习方案的方法相比，我们的方法获得了到目前为止最好的性能(对于e≤0.0 5，性能为82.5%)。对于虹膜定位(e≤0.10)，我们的方法的性能次之(93.4%)，仅次于Cristinacce等人的方法。产生了显著的改进(96.0%)-然而，这种改进再次意味着，与我们仅基于点积的方法相比，计算复杂度更高。对于较高的归一化误差，例如e≤0.15、e≤0.20或e≤0.25，我们的方法的性能与其他方法相当。

基于性能排名的比较显示在选项卡中。2.可以清楚地看到，没有一种方法对e的所有值都是优越的。例如，Türkan等人提出的方法。实现了对整个眼睛中心的准确估计，即e≤0.2 0和e≤0.2 5，但对于虹膜定位(e≤0.10)和瞳孔定位(e≤0.0 5)，在这两种情况下都无法检测到等级13的虹膜定位(e≤0.10)和瞳孔定位(e≤0.05)。相反，我们的方法在瞳孔和虹膜定位方面排名第二，在较大的e上排名第三和第四。因此，对于单个e，我们的方法不能产生最好的结果，但是如果我们评估平均值对我们的方法进行排名会产生最好的结果(3.0)。与平均排序次之的方法(3.4，V alenti and Gevers，MIC+SIFT+KNN)相比，该方法不仅平均排序优越，而且个体排序的方差明显较小，复杂度也较低。

总体而言，我们的方法在寻找特定e时的性能与其他最先进的方法相当，但它在所有e的值上都产生了最好的平均性能。因此，我们的方法被证明在几个问题上都是强大的，例如眼睛中心定位(e≤0.05)，虹膜定位(e≤0.10)，以及眼睛定位(e≤0.25)。只比较那些没有应用任何学习方案的方法，对于较困难的任务，我们的方法取得了显著的改进，即e≤0.0 5提高了5%，e≤0.10提高了7%，e≤0.15提高了2.6%。

在这里插入图片描述
表1：在BioID数据库上进行眼睛检测的性能比较。方括号表示从作者的图表中准确测量的值。(∗)省略了闭着眼睛和眼镜的图像。(·)不涉及任何类型的学习或模型方案的方法。由于一些作者没有提供任何性能的图形评估，例如通过使用WEC曲线，所以无法估计中间值-这些缺失的值用“-”表示。

4.结论

提出了一种新的基于图像梯度的人眼中心精确定位算法。对于每个像素，我们计算中心候选的位移矢量与图像梯度之间的平方点积。然后，最大值的位置对应于大多数图像梯度相交的位置。我们的方法计算复杂度低，并且对光照的旋转和线性变化是不变的。与几种最先进的方法相比，对于瞳孔定位等特殊场景，我们的方法具有很高的准确率。如果评估几个场景的平均表现，例如瞳孔定位、虹膜定位和整体眼睛定位，则排在第一位(第二名)，而如果评估几个场景的平均表现，如瞳孔定位、虹膜定位和整体眼睛定位，则排在第一位。我们的方法可以应用于几个(实时)要求高精度的应用，如眼睛跟踪或医学成像分析(细胞跟踪)。
在这里插入图片描述
表2：根据表2所示的性能对每种方法的排名进行比较。1.