交互式应用中的视线跟踪技术

saoqi_boy

已于 2022-10-27 11:46:50 修改

阅读量1.8k

点赞数 2

分类专栏：论文文章标签：人工智能网络机器学习

于 2022-10-26 19:02:29 首次发布

原文链接：https://doi.org/10.1016/j.cviu.2004.07.010

版权

论文专栏收录该内容

7 篇文章

订阅专栏

交互式应用中的视线跟踪技术

前言
摘要
1. 介绍
2. 人眼结构
3.视线跟踪器
4. 瞳孔-角膜反射技术
5. 高级REGT
6. 结论
鸣谢
博主总结

前言

本文为翻译搬砖和总结一些自己的心得体会。

作者：Carlos H.MorimotoMarcio R.M.Mimica，发布于2005年

摘要

本文综述了视线跟踪技术，并重点介绍了可能有助于其在一般计算机应用中应用的最新进展。早期的视线跟踪设备适合在受控环境中进行科学探索。尽管长期以来人们一直认为它们也有可能成为重要的计算机输入设备，但这项技术仍然缺乏重要的可用性要求，这阻碍了其适用性。由于其声称的可用性优势，我们对瞳孔-角膜反射技术进行了详细描述，并表明该方法仍然不适合于一般交互式应用。最后，我们介绍了几种最新的可用性提高的远程视线跟踪技术。这些新的解决方案简化或消除了校准程序，并允许头部自由运动。

1. 介绍

视线跟踪器（EGT）是能够估计人的视线方向的设备。Young和Sheena[1]对传统的视线跟踪技术进行了很好的研究。最近的一些评论可以在Glenstrup和Nielsen[2]以及Duchowski[3]中找到。

早期的EGT是为在受控环境或实验室中进行科学探索而开发的。凝视数据已用于眼科、神经病学、心理学和相关领域，以研究眼动特征和异常，以及它们与认知和心理状态的关系。最近在市场营销和广告以及人类因素工程方面的研究有更多的应用，以评估计算机界面和网站，但它们仍然局限于受控环境。

长期以来，虽然EGT被建议作为计算机接口的输入设备[4]、[5]，但成功的尝试仍然局限于军事应用和残疾人接口的开发。本文关注的是EGT在更通用的计算机应用中的可用性。

根据Duchowski[6]的说法，视线跟踪应用程序可以分为诊断性应用程序和交互式应用程序。诊断应用程序使用眼睛注视数据作为用户视觉和注意力过程的定量证据。交互式应用基于观察到的眼睛运动使用眼睛注视数据来响应用户或与用户交互。

许多传统的视线跟踪技术是侵入性的，即，它们需要一些设备与用户进行物理接触。例如，这些技术包括隐形眼镜、电极和头戴式设备。非侵入性技术（或远程技术）主要是基于视觉的，即，它们使用相机捕捉眼睛的图像。一些基于相机的技术如果需要头戴式，可能会有点侵入性。

对于诊断应用，在短时间实验期间可以记录眼睛数据并在稍后进行处理，设置眼睛注视跟踪器所需的时间以及设备可能造成的不适不构成问题（至少在一般情况下）。这对于一些交互式应用程序也是如此，其中用户必须严重依赖眼动仪来完成某些任务（即，几乎没有选择或没有替代设备）。

远程凝视跟踪器（REGT）提供了使用的舒适性，以及更容易和更快的设置，允许用户比侵入式技术更长的时间使用该系统。尽管REGT的准确性一般低于侵入性EGT，但它们更适合长期使用。瞳孔-角膜反射技术通常被宣传为一种远程视线跟踪系统，对某些头部运动具有鲁棒性，并且易于校准。不幸的是，这些说法大多不完全正确。这种装置所能容忍的头部小运动对其准确性有很大影响，因此通常使用下巴托或咬杆来限制头部运动，这会大大降低使用者的舒适度。

Schnipke和Todd[7]描述了使用商业REGT系统收集可靠的眼动追踪数据是多么困难。为了对一个受欢迎的软件应用程序进行可用性实验，一名拥有1年眼动仪经验的操作员无法让系统跟踪16名受试者中的10名，而且他们都没有戴眼镜。在他们的苦恼列表中，有一些问题与设置系统的困难有关，例如控制照明条件和放置相机，使睫毛不受干扰，还有一些系统的固有问题与校准、干眼症、眼镜以及当有一些头部运动时系统的滞后有关。

尽管当前技术存在局限性，但基于视线的交互式应用程序仍有可能彻底改变我们使用计算机的方式。Lewis[8]讨论了构建基于智能代理的用户界面的设计问题。术语“代理”指的是人机交互（HCI）方面的自动化。这样的界面将能够自动预测命令或执行动作，但为了做到这一点，它们需要可靠的手段来检测用户的注意力焦点，从而推断用户的“意图”。Vertegaal[9]讨论了一种类似的交互范式的设计问题，即关注界面，并展示了它如何从REGT中受益。Zhai[10]、Duchowski[3]、Glenstrup和Engell Nielsen[2]提出了眼动仪的其他应用。当我们在等待一个可靠、准确、易于操作、低成本的REGT时，Edwards[11]建议了一个可以用来开发这些眼睛感知应用程序的工具。

在下一节中，我们从眼睛结构的简短描述开始，以更好地理解每种眼睛跟踪技术的原理和限制。第3节描述了传统的EGT，可能是侵入性的或非侵入性的。对这些技术的性能进行了比较，第4节详细描述了瞳孔-角膜反射技术，并讨论了其在一般计算机应用中的可用性。第5节描述了REGT的先进技术，这些技术代表了该技术的最新水平，第6节总结了本文。

2. 人眼结构

图1显示了人眼的主要组成部分。眼睛呈近似球形，半径约为12mm[12]。

图 1
图1.人眼的结构

眼窝中可见的眼睛外部部分是巩膜（眼睛的白色部分）、虹膜（眼睛颜色部分）和位于虹膜中心的瞳孔。角膜是一种保护性透明膜，没有血管，向眼睛前方突出，覆盖虹膜。虹膜的中心有一个圆形光圈，叫做瞳孔，它通过不断改变大小来调节进入眼睛的光量。

虹膜后面是透镜，一种双凸多层结构。晶状体的形状在调节过程中会发生变化，这一过程可以使物体的图像在视网膜中形成清晰的焦点，视网膜是一层位于眼睛后部的感光细胞。在角膜和晶状体之间是充满水性房水的前房，在晶状体和视网膜之间的空间是透明的凝胶状玻璃体。穿透视网膜的光已经穿过了整个眼睛的光学介质，在每个介质边界处受到反射和折射。

视网膜中有一个小而特殊的区域，称为中央凹，它集中了大部分对颜色敏感的细胞，并负责感知场景的细节。中央凹不完全在眼球中心和瞳孔中心所定义的眼睛光轴上。我们将把眼睛的光轴称为视线（LoG），把从中央凹到瞳孔中心的线称为视线。决定一个人视觉注意力的是LoS而不是LoG。如果可以估计LoG或LoS，并且存在关于场景对象的信息，则视点计算为LoG（或LoS）与场景中最近对象的交点。对于HCI而言，将计算机的监视器视为分析对象和监视器上的像素点是合理的。

不同的眼睛模型描述了人眼在不同复杂度水平下的光学特性。我们将使用Gullstrand的眼睛模型[13]作为理想眼睛来演示EGT的一些特性。表1显示了穿过角膜直到视网膜的光路中的边界表面的特性。结构之间的边界设置为球面。

表1.使用Gullstrand眼睛模型的光线路径
在这里插入图片描述

3.视线跟踪器

德比大学应用视觉研究中心（AVRU）维护着一个眼动设备数据库(http://ibs.derby.ac.uk/emed)这可能对那些对商业眼动仪更详细信息感兴趣的读者有用。Young和Sheena介绍了几种传统眼动仪的详细信息[1]。在本节中，我们简要介绍了传统的侵入式和远程眼动追踪技术的特点，并讨论了交互式计算机应用程序的一些可用性要求。

3.1 侵入式视线跟踪器

侵入式视线跟踪技术通常比远程跟踪技术更准确。一些不太准确的替代品也比较便宜。最传统的方法之一是基于隐形眼镜。Robinson[14]使用一个嵌入隐形眼镜的小线圈（称为搜索线圈），通过轻微的抽吸将其紧紧地贴在巩膜上，以避免快速眼球运动时的漂移。通过测量由外部电磁场在搜索线圈中感应的电压来估计用户的视线。尽管侵入性很强，但该系统非常准确（约0.08°）。

如Kaufman等人[15]所述，一种较便宜的技术基于测量皮肤电位。眼电图（EOG）由于其技术简单，是一种非常常见的用于记录临床应用的眼动的技术。通过在眼睛周围放置电极，可以测量与眼睛运动相对应的皮肤电位的微小差异。这种技术也不适合日常使用，据报道其精度约为2°。

相机或其他光学设备可用于测量眼睛位置，而无需与用户直接接触。一些基于相机的方法要求眼睛离光学设备非常近，因此必须安装在头部，或者必须使用下巴托或咬杆限制头部运动。

3.2 基于相机的视线跟踪器

基于相机的眼睛注视跟踪技术依赖于眼睛的某些特性或特征，这些特性或特征可以由相机或其他光学或光敏设备检测和跟踪。这些技术中的大多数都有可能以非侵入性方式实现。

边缘和瞳孔是用于跟踪的常见特征。边缘是巩膜和虹膜之间的边界。由于这两个区域的对比，它可以很容易地水平跟踪，但由于眼睑通常覆盖虹膜的一部分，边缘跟踪技术的垂直精度较低。由于瞳孔-虹膜边界之间的对比度较低，瞳孔更难检测和跟踪，但瞳孔跟踪技术具有更好的准确性，因为瞳孔不被眼睑覆盖（眨眼时除外）。

为了增强瞳孔和虹膜之间的对比度，许多眼动仪使用红外（IR）光源。因为红外不可见，所以光线不会分散用户的注意力。在实践中，大多数实施使用波长约为880 nm的近红外光源，这对人眼几乎是不可见的，但仍然可以被大多数商用相机检测到。

有时，IR源放置在相机光轴附近。由于相机现在能够“看到”眼睛背面反射的光，类似于使用明亮闪光灯的夜间摄影中的红眼效果，因此相机看到的是图2B所示的明亮瞳孔，而不是图2A所示的规则暗瞳孔。Nguyen等人[16]进行了实验，展示了人眼红外明亮瞳孔反应的行为，讨论了一些可能导致受试者之间明亮瞳孔响应发生巨大变化的因素。

在这里插入图片描述
图2.深色和明亮的瞳孔图像。

光源还在角膜表面上产生角膜反射（CR）或闪光，图2A中瞳孔附近清晰可见。在第4节中描述的瞳孔-角膜反射技术中，该闪光被用作参考点。

Reulen等人[17]使用了一种称为红外眼图（IROG）的红外照明边缘跟踪技术。他们分别在眼睛上方和下方放置红外发光二极管和红外光敏光电晶体管。几个这样的红外对可以安装在护目镜或头盔上，这样角膜缘总是被照亮，特别是鼻侧和颞侧的角膜缘。光电晶体管将反射的IR光转换为电压。将鼻侧光电晶体管的电压与时间侧光电晶体管电压进行比较，得出的电压差与眼睛的角度偏差成比例。他们将他们的系统命名为IRIS眼动仪(http://www.skalar.nl)其最初设计用于人类的临床动眼神经诊断。然而，它的高精度（弧长约2分钟）和大带宽也允许对眼睛行为进行基础研究，如扫视、追赶、收敛等。IROG IRIS系统是头戴式的，重量约为300克。

Cornsweet和Crane[18]描述了另一种非常精确的眼动仪，它使用了第一和第四幅Purkinje图像（见图3）。Purkinje图像是在眼睛结构的不同层产生的反射。第一Purkinje图像对应于角膜外表面的反射。这是最明亮、最容易检测和跟踪的反射。检测其他Purkinje图像需要特殊的硬件，但允许根据第三和第四Purkinj图像估计3D视点，这与Crane和Steele所述的晶状体松弛相对应[19]。

在这里插入图片描述
图3.Purkinj图像

在双Purkinj图像（DPI）眼动仪中，当眼睛进行平移时，两幅Purkinj图片会一起移动。但是当眼睛旋转时，两个图像会移动不同的距离，从而改变它们的分离。这种分离产生了眼睛角度方向的测量。作者报告了大约1分钟弧的令人印象深刻的精确度。

物体姿态估计的另一种方法是将图像视为高维空间中的点，而不是使用边缘或瞳孔的轮廓等明确的几何特征。使用这种表示的技术通常被称为基于外观或基于视图。Tan等人[20]使用来自3个用户的252幅图像来构建一种基于外观的方法来估计视线，并达到约0.5°的精度。

Baluja和Pomerleau[21]提出的方法也没有使用显式几何特征。他们描述了一种基于人工神经网络（ANN）的视线跟踪器。一旦检测到眼睛，眼睛的图像将被裁剪并用作人工神经网络的输入。当用户注视计算机监视器上的特定点时，将拍摄训练图像。在他们的实验中，使用了2000个训练样本。他们的原型跟踪器运行频率为15 Hz，精度约为2°，允许头部移动。

3.2.1 鲁棒性和准确性

远程视线估计的第一步是眼睛检测和跟踪。除了眼睛，一些技术还需要检测其他特征。稳健和准确的眼睛和特征检测和跟踪对于增强当前REGT的可用性至关重要，因此操作员可能不太关心照明条件和相机的位置，以获得良好的眼睛图像，试图避免睫毛甚至眼镜的遮挡。

该文献提供了几种直接检测眼睛的技术，或作为面部的子特征。人脸可以通过背景减法、肤色分割、几何模型和模板、人工神经网络等进行检测。

用于EGT的眼睛检测的直接方法在[22]、[23]、[24]中给出。Kothari和Mitchell[23]使用空间和时间信息来检测眼睛的位置。他们的过程从使用梯度场选择一个潜在候选池开始。沿着虹膜/巩膜边界的梯度始终指向虹膜中心的外侧，因此，通过沿着这些线累积，可以通过选择计数最高的单元来估计虹膜中心。启发式规则和大量的时间支持用于过滤错误的瞳孔候选。该方法将找到可能相对较小的候选眼睛，但大多数REGT系统假定图像中有一只大眼睛，使用操作员可以调整的简单阈值很容易分割。

分割亮瞳或暗瞳的简单阈值技术可能对环境光照的变化不鲁棒。此外，它要求系统操作员为每个会话找到合适的阈值级别。Kim和Ramakrishna[25]和Perez等人[26]使用边缘检测技术来分割边缘或瞳孔，也需要阈值。

Tomono等人[24]和Ebisawa和Satoh[22]已经开发了用于鲁棒检测瞳孔和角膜反射的类似技术。Tomono等人[24]开发了一个非常复杂的实时成像系统，由一个带有3个CCD和2个近红外（IR）光源的摄像机组成。光源具有不同的波长（λ1和λ2）。波长λ1（或λ1）的光源也被偏振。λ2放置在相机光轴附近，λ1放置在稍微偏离轴的位置，分别生成亮瞳图像和暗瞳图像。CCD3仅对λ2敏感，因此它输出明亮的瞳孔图像。CCD1和CCD2对λ1敏感（λ2被滤除），CCD1还具有偏振滤光片，以便仅接收漫射光分量，即，由于λ1引起的角膜反射不会出现在CCD1的图像中。一旦三个图像可用，通过对CCD3和CCD2的图像进行差分和阈值化来分割瞳孔，并且使用来自CCD2和CCD1的图像分割用于视线估计的角膜反射。

在这里插入图片描述
图4.（A）瞳孔明亮；（B）暗瞳孔；以及（C）差瞳

Tomono等人和Ebisawa开发的眼动仪用于要求高精度的受控（实验室）环境中的视线跟踪。出于HCI目的，Morimoto等人[28]、Haro等人[29]和Zhu等人[30]也建议使用差分照明方案来远程眼睛检测和跟踪。它们都报告了对光照变化的良好鲁棒性，但对于宽视场相机，必须对瞳孔候选进行过滤。由于使用了主动红外照明，这种技术在室内甚至在黑暗中效果更好，但可能不适合户外，因为阳光中含有红外，在明亮的环境中瞳孔变小。

视线方向的准确性和分辨率高度依赖于瞳孔（或虹膜）检测的准确性。为了达到亚像素精度，计算瞳孔区域的质心可能是计算其中心的最自然的方法，尽管由于反射和睫毛的存在，这种方法并不十分可靠。

Zhu和Yang[31]建议使用边缘边缘对亚像素虹膜跟踪进行椭圆拟合。圆锥曲线的隐式表示由下式给出：
在这里插入图片描述
对于圆锥曲线为椭圆，以下限制：b² − 4ac < 0 必须保持。椭圆参数的标准化约束可由4ac−b²=1施加。使用这种归一化，Fitzgibbon等人[32]提出了一种直接最小二乘法，根据椭圆的N⩾6个点来计算椭圆参数。

由于瞳孔轮廓也可能受到睫毛和角膜反射等异常值的影响，Ohno等人[33]建议的双椭圆拟合机制可以进一步提高眼睛凝视估计的鲁棒性和准确性。首先，瞳孔边缘用于椭圆拟合，然后，仅使用靠近计算的椭圆边缘的瞳孔边缘进行第二次拟合。这将滤除真实瞳孔轮廓中的异常值，并提高瞳孔位置估计的准确性。

一些技术需要检测其他特征，例如角膜反射。CR的检测可以通过搜索最靠近瞳孔中心的亮点以贪婪的方式完成。CR中心的计算可以可靠地计算为亮点的质心的位置。

典型的NTSC相机能够产生30帧/秒，但由于帧是隔行的，大多数基于相机的EGT可以实现敢达60 Hz的速率。一帧的分辨率为640×480像素。如果相机的水平视野约为4°，这意味着相机可以从600 mm（从眼睛到监视器和相机的典型距离）看到约40 mm的区域。在这种特殊情况下，图像中的一个像素大致相当于0.0625毫米。因为IROG和DPI技术使用感光细胞而不是相机来远程检测眼睛位置的变化，所以它们可以比常规相机更快、更准确地检测变化。

3. 校准和头部运动

到目前为止，我们基本上只描述了每种技术中测量的东西，以估计视线的方向。这些测量，如瞳孔位置、角膜缘位置、皮肤电位、浦肯野图像的相对位置等，必须转换为眼睛的方向。需要校准程序来计算测量值和眼睛方向之间的映射。除了眼睛的方向，镜头的调节也可以用于3D眼睛跟踪。

典型的校准程序向用户呈现一组视觉目标，用户在进行相应测量时必须查看这些视觉目标。根据这些对应关系，可以计算映射或校准函数。理想情况下，该函数应在宽视角上呈线性。Cornsweet和Crane[18]表明，DPI技术在直径10°范围内具有良好的线性。

对于传统的瞳孔和边缘跟踪技术，瞳孔或虹膜的中心位置必须映射到视觉目标。由于眼睛位置随头部位置而变化，因此在校准期间和之后，头部应保持静止。补偿小头运动的一种方法是考虑瞳孔/虹膜相对于眼窝的位置，或用户脸上的某个可靠固定点。因此，使用从参考点到瞳孔/虹膜中心的矢量来计算映射。对于瞳孔-角膜反射技术，CR被用作参考点。

基于外观和人工神经网络技术从大量图像中“学习”校准，并将此映射推广到其他用户，即，他们的优点是，一旦训练后，不需要按用户进行校准，但因为眼睛的图像也会随头部位置（和照明条件）而变化，因此这些技术对头部运动也很敏感。

3.4 视线跟踪器可用性要求

表2总结了传统视线跟踪器的一些特征。除了准确性，EGT还应满足几个可用性要求。根据Scott和Findlay[34]以及Hallett[35]，理想的EGT将：

1.提供畅通无阻的视野，便于接近面部和头部；
2.不与受试者接触；
3.如有必要，应对能够人工稳定视网膜图像的实际挑战；
4.具有至少百分之一或几分钟弧的精度；
5.提供1分钟弧s的分辨率−并且因此能够检测眼睛位置的最小变化；
6.提供1分钟至45°的宽动态范围，适用于眼睛位置和1分钟弧度−1至800秒−1表示眼速；
7.提供良好的时间动态和响应速度；
8.具有实时响应；
9.测量所有三个角度旋转度，对眼睛平移不敏感；
10.易于扩展到双目记录；
11.与头部和身体记录兼容；
12.易于在各种主题上使用。

表2.传统EGT的特点
在这里插入图片描述

上述列表包括速度、精度和分辨率的若干技术要求，实验室使用的一些特殊要求，以及便于使用的其他更一般的要求。为了为公众构建眼睛感知应用程序，这些要求中的许多要求都过于严格，因此，如果不完全忽略，它们可以“放松”，例如要求3。

理想的眼动仪应：

1.精确，即精确到弧分；
2.可靠，即具有持续、重复的行为；
3.健壮，即应在不同条件下工作，如室内/室外，佩戴眼镜和隐形眼镜等；
4.非侵入性，即不会造成伤害或不适；
5.允许头部自由运动；
6.不需要校准，即即时设置；
7.具有实时响应。

简而言之，它应该在任何地方、任何人、任何时间、任何应用程序中都能工作，而无需设置，并且不会对用户造成伤害或不适。

当然，没有任何技术能够满足这些可用性要求，但瞳孔-角膜反射技术比其他可用的替代技术具有一些优势。尽管这种方法的性能可以从使用下巴托或咬合棒中受益，但许多制造商，如ASL[36]、LC Technologies[37]和SMI[38]声称，他们的瞳孔-角膜反射式眼动仪在简单的校准程序后，可以承受小的头部运动，通常在1立方英尺以内，并且可以达到0.5°到1°之间的精度。

尽管我们无法访问他们的专有软件，但下一节将介绍一些可用于实现瞳孔-角膜反射EGT的算法和方法，并讨论这些可用性声明。

4. 瞳孔-角膜反射技术

由于其简单性和合理的准确性，目前许多REGT都基于角膜反射技术[36]、[39]、[4]、[37]、[28]、[38]。图5显示了典型的瞳孔-角膜反射设置。与DPI技术类似，它还需要一个红外光源来生成Purkinje图像，但只需要检测和跟踪第一个Purkinje影像或角膜反射。

在这里插入图片描述
图5.瞳孔-角膜反射技术

假设眼睛是一个仅围绕其中心旋转的球体，并且相机和光源是固定的，则CR的位置不会随着眼睛的旋转而移动，因此可以用作参考点。瞳孔（或虹膜）的中心和CR定义了图像中的矢量。在校准过程之后，该矢量可以很容易地映射到计算机监视器上的屏幕坐标，例如，用于控制图形用户界面上的光标。这是通过监视器评估校准质量的简单方法。

需要校准程序来计算瞳孔闪烁矢量到监控屏幕坐标的映射。一般情况下，要求用户查看计算机屏幕上的多个点，一次一个点，然后按一个按钮。Morimoto等人[28]使用9个点进行校准和二阶多项式校准函数。多项式定义为：
在这里插入图片描述
其中（Sx，Sy）是屏幕坐标，（x，y）是瞳孔-角膜反射向量。参数a0–a5和b0–b5是未知数。由于每个校准点定义了2个方程，系统被12个未知数和18个方程过度约束，可以使用最小二乘法求解。事实上，由于参数a和b的集合是独立的，因此可以将其解为两个由6个未知数和9个方程组成的系统。

拟合更高阶多项式可以提高系统的精度[40]，但二阶多项式需要较少的校准点，并提供良好的近似值。更简单的线性模型也已成功使用。

使用角膜反射作为参考允许小的头部运动，因为CR跟随头部运动，并且校准可以很好地处理由于LoG和LoS的差异、角膜的缺陷、相机相对于计算机屏幕的位置等引起的偏移。

不过，这个简单的模型有几个问题。不幸的是，当头部离开其原始位置时，校准映射会衰减，正如Schnipke和Todd[7]所述，校准是当前REGT中最严重的问题之一，因为它需要操作员调整多个系统参数，如照明条件和用户、监视器和相机的相对位置。

差分照明方案的使用可能有助于系统设置，并使其对照明变化更加鲁棒，但校准仍然是一个问题。为了测试校准适用于小头部运动的假设，我们生成了几个眼睛模型的合成图像，使用光线跟踪进行渲染。图6显示了三幅这样的眼睛图像。我们主要对瞳孔中心和角膜反射感兴趣。图像显示了巩膜内的角膜球体，瞳孔是角膜内的圆盘。旋转是围绕眼球中心（即，不是角膜中心）进行的。由于角膜和房水的折射率非常相似（见表1），因此只考虑角膜的外部边界。

在这里插入图片描述
图6.使用Gullstrand的眼睛模型对图像进行光线跟踪。

在这个实验中，假设摄像机的光学中心是坐标中心。（x，y）坐标分别对应于左方向和上方向。z轴在以相机为中心的右手坐标系中定义光轴。相机的垂直视野设置为3.5°。

设P0=（0，270，600）为眼睛位置，计算机屏幕由xy平面中的矩形定义，左上坐标（183，274）和右下坐标(−183，0），大致相当于18英寸。班长所有坐标均以毫米为单位。图7显示了眼睛相对于相机和监视器的相对位置。

在这里插入图片描述
图7.相机和监视器设置。

为了校准系统，将屏幕分成3×3网格（见图7）。因此，在每个网格元素的中心绘制了9幅眼睛图像。Morimoto等人提出的系统的改进版本[28]用于图像处理、校准和视线估计。

为了测试校准并在没有头部运动的情况下估计误差，将每个网格元素进一步划分为3×3网格，并生成眼睛注视每个新位置的图像。图8显示了位于P0处的眼睛沿屏幕的校准误差。误差定义为从估计的注视位置到真实网格位置的距离。整个计算机屏幕的平均误差约为8mm，或约为0.8°视角。请注意，错误在屏幕上是不均匀的。Jacob在[41]中报告了一个类似的事实，并给用户提供了进行本地手动重新校准的可能性，从而解决了这个问题。用户应该用鼠标将光标移动到需要重新校准的区域，并在查看光标的同时单击该区域。

在这里插入图片描述
图8.P0时沿眼睛屏幕的误差分布（单位：mm）

为了测试头部运动对校准函数精度的影响，将眼睛移动到不同位置以模拟头部运动。眼睛沿3轴平移到3个不同的位置，对应于距离原始位置50、100和150 mm的位移。对于每个位置，81个新的眼睛图像，对应于凝视计算机屏幕上的81个网格元素，被渲染并作为REGT的输入。

沿x轴平移眼睛会导致平均误差的微小变化。图9比较了位于P0处的眼睛和位于(−100, 270, 600). 请注意，当眼睛移动到新位置时，相机方向已更改以保持眼睛在视图中居中，但使用了相同的校准参数。对于这个新的眼睛位置，平均误差为9.92毫米。

在这里插入图片描述
图9.在 P0和(-100,270,600)处眼睛的平均屏幕网格误差(毫米)

图10显示了眼睛在P0和（0，270，700）处的对比，即z平移。在此位置处的平均误差增加到40.56 mm，表明此校准函数对眼睛沿z轴的移动更敏感。

在这里插入图片描述
图10.P0和（0，270，700）处眼睛的平均屏幕网格误差（mm）。

位于（0，170，600）处的眼睛的平均误差为21.76 mm，这表明该技术对于沿y轴的移动不如对于水平平移那么鲁棒，尽管不如沿z轴的平移那么糟糕。这些结果符合我们的个人经验，因为头部的小的左右或上下旋转（这是最常见的运动）不会对校准产生太大影响。上下移动头部（沿y轴）并不常见，将头部移近显示器确实会影响校准。

White等人[42]使用具有独立分量的简单线性模型，并提到在实践中，高阶多项式函数不能提供更好的校准。我们还使用6个校准参数而不是12个校准参数测试了一个更简单的线性模型，并注意到对于更复杂的校准模型，在监视器边缘附近的校准效果更好，但在我们的实际实验中，这种改进并不明显。

在整个监视器屏幕上拟合多项式函数也是不需要的。例如，Zhu和Yang[31]构建了从眼角和虹膜中心之间的矢量到凝视角的2D线性映射。校准后，通过插值计算视线方向。例如，假设用于点P1和P2校准的凝视角和眼角到虹膜向量分别为{（α1，β1），（x1，y1）}和{（β2，β2），（x2，y2）}。然后，在测量角虹膜矢量（x，y）之后，按如下方式计算凝视角：
在这里插入图片描述
他们报告了使用亚像素精度跟踪眼角和虹膜中心的平均误差约为1.1°，使用像素级精度的平均误差为3.3°。

5. 高级REGT

目前正在研究的高级REGT基本上试图消除两个问题，即每个用户会话的校准需求和头部运动的大限制。

Morimoto等人[43]提出了一种无需校准且允许自由头部运动的简单方法来估计眼睛凝视。他们使用一台摄像机和两个红外光源，一个光源产生明亮的瞳孔图像，另一个光源生成暗瞳孔图像。因为角膜表面可以被建模为球面凸镜，假设光源的近轴光线被反射镜（角膜）反射，所以可以在3D中计算角膜的中心。这需要根据监视器和灯光位置以及用户眼睛的模型对相机进行校准。从角膜中心，他们还估计瞳孔的3D位置，视线方向被定义为从角膜中心到瞳孔中心的3D矢量。实验结果表明，使用合成图像的精度约为3°。

Yoo等人[44]描述了另一种有趣的方法。他们使用监视器屏幕周围的四个LED将这些角投射到角膜表面（见图11）。第五个LED放置在CCD相机镜头附近，以创建明亮的瞳孔图像，并帮助分割瞳孔。他们假设角膜是平坦的，因此当用户观看监视器时，瞳孔中心将出现在由监视器上光源的四个角膜反射所定义的多边形内。利用透视下交叉比的不变性，他们以大约2°的精度非常有效地计算视点。这种方法的一大优点是它不需要摄像机校准。

在这里插入图片描述
图11.显示器表面周围光源的投影。

其他系统使用关于面部的信息来估计视线。如[45]中所述，如果可以确定眼睛的绝对位置，则任何2D视线跟踪系统都可以扩展到3D，尽管没有实现。Wang和Sung[46]以及Newman等人[47]给出了首先计算3D中的面部姿势，然后计算眼睛凝视的系统示例。Newman等人[47]根据立体定位眼角的3D位置，并根据眼球的方向计算3D LoG。一些眼科参数必须按每个人进行训练。系统实时运行，但精度较低，约为5°。Wang和Sung[46]还将面部姿势估计系统与窄视场相机相结合，以计算视线方向。他们假设虹膜轮廓是一个圆，以估计其在3D中的法线方向。为了使用真实图像计算视点，使用来自不同位置的眼睛的第二个图像。他们使用3名受试者的合成图像和真实图像进行的测试表明，该系统的精度低于1°，考虑到他们不使用眼睛模型，也不补偿中央凹偏移，这是非常好的。

Beymer和Flickner[48]使用单独的立体系统在3D中检测人脸。一旦检测到人脸，该信息将用于控制第二对窄视场立体摄像机。然后，使用大瞳孔图像将其3D眼睛模型中的投影模型特征拟合到检测到的图像特征。每个用户需要一次性校准来估计眼睛的固有参数，例如角膜半径和LoS的角度偏移。作者报告了一个人在距离监视器622mm处的视线方向的准确度为0.6°。

Shih和Liu[49]没有定位窄视场立体相机的系统，但与Beymer和Flickner相似，他们的方法基于简化的眼睛模型。他们使用多个相机和多个点光源来估计眼睛的光轴。使用Le Grand的简化眼睛模型，他们表明使用两个校准相机和至少两个已知位置的点光源，可以计算LoG。LoS到LoG的偏移量可通过每个用户的一次性校准程序获得，通常需要2–3秒。在他们的实施中，他们使用3个红外LED，每秒处理30帧，精度低于1°。

表3显示了本节中提出的允许自由头部运动的方法之间的速度和精度的比较。所有这些方法都是最近的。最准确、最快的是Beymer和Flickner[48]以及Shih和Liu[49]。这两个系统都需要每个用户进行一次性校准，但由于它们需要在独立部件（如立体声系统和显示器）之间进行系统校准，我们认为它们还不适合广泛使用。这对于Morimoto等人[43]提出的系统也有一定的真实性，因为它们也需要校准，尽管是针对单个摄像机。最有希望的技术，至少在易于使用方面，似乎是Yoo等人[44]提出的技术，尽管其精确度较低。

表3.比较并简要描述允许头部自由运动的方法
在这里插入图片描述

在本节中，我们没有考虑补偿头部运动的头戴式眼动仪。所有提出的高级方法都是非侵入性的，并且没有一种方法需要每个会话进行校准，尽管其中一些方法需要每个用户进行一次校准。不幸的是，相当一部分还需要摄像机校准，这对于没有经验的用户来说可能更难实现。

6. 结论

我们描述了远程视线跟踪器（REGT）的技术现状，并表明当前REGT技术的两个主要可用性问题，即恒定系统校准和非常有限的头部运动的要求，正由最新一代的REGT解决。我们还介绍了用于眼睛注视跟踪的传统方法，并重点讨论了瞳孔-角膜反射技术。从这篇综述中，我们发现眼动仪是实验室仪器，因此，许多侵入性技术是可以容忍的。但是，为了开发通用的计算机视觉感知计算机应用程序，必须满足新的可用性要求。

鸣谢

我们感谢Arnon Amir、Myron Flickner和Dave Koons为我们的工作提出了许多有意义的建议和贡献。

博主总结

这篇论文篇幅较长，较为全面的介绍了眼动追踪的研究现状，重点介绍了非入侵式眼动设备中的瞳孔-角膜反射技术，这一技术也是tobii眼动仪的技术核心，目前tobii眼动仪处于全球领先地位，它允许头部晃动，经过很少的校准便可以达到很精确的追踪效果，而且其帧率可以在50~1200之间调节，可谓是非常强悍了。但目前其价格还是略贵，而现在的笔记本电脑一般都带有一个网络摄像头，如果能够利用该摄像设备实现准确且迅速的凝视预测，那么眼动应用的黄金时代或许就真的要来了！
文中使用角度作为精确度度量单位是其预测的眼球方向向量与真实值之间的误差，而别的文章中也有以其最终在屏幕上的预测坐标与真实坐标的距离作为精确度评价标准的。

论文原地址：https://www.sciencedirect.com/science/article/pii/S1077314204001109