《A Novel Gaze Estimation System With One Calibration Point》论文阅读

最新推荐文章于 2024-04-20 09:43:16 发布

大饼子Wong

最新推荐文章于 2024-04-20 09:43:16 发布

阅读量988

点赞数

分类专栏：视线追踪文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_42009267/article/details/103851409

版权

视线追踪专栏收录该内容

27 篇文章 16 订阅

订阅专栏

题目：A Novel Gaze Estimation System With One Calibration Point
作者：Arantxa Villanueva and Rafael Cabeza
来源：IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) Volume 38 Issue 4 • Aug.-2008

摘要

设计健壮和高性能的跟踪系统是眼球跟踪社区最重要的目标之一。一般来说，需要一个对象校准过程来学习系统参数，并能够准确地估计凝视方向。在这篇文章中，我们试图确定是否可以消除subject calibration（主题/对象校准）。对凝视跟踪系统进行了几何分析，以确定用户校准要求。使用的眼睛模型考虑了光轴和视轴之间的偏移、角膜的折射和唐德斯定律（Donder’s law）。本文演示了用于凝视估计所需的最小摄像机、光源和用户校准点的数量。底层几何模型基于图像中的闪烁位置和瞳孔椭圆，该模型所需的最小硬件是一个摄像头和多个发光二极管。本文证明了物体标定对于正确的视线估计是必不可少的，并提出了一种基于单点的物体标定模型。实验表明，虽然两个闪烁和一个校准点就足以进行凝视估计(误差约为1度)，但是使用更多的光源和校准点可以降低平均误差。

关键词：校准，凝视估计，视线(LOS)，视点(POR)，视频眼底照相术。

1.介绍

研究人员正在研究眼动追踪技术，其最终目标是提供高度准确和强大的系统，可以在将来将其应用于不同的常规任务。这些系统可以分为两个主要应用：诊断和交互式[1]。诊断应用程序在执行特定任务（例如阅读，场景扫描，Web浏览和驾驶）时，会使用眼动仪来分析眼动。交互式应用程序将对象的凝视方向显示在屏幕上，作为跟踪器的输入，这允许严重受损的人使用系统并与环境互动。基于远程摄像机的视频眼图（VOG）系统对用户而言最为舒适。VOG系统的目的是通过由照相机捕获的眼睛图像来精确地确定对象在看什么。视频眼动跟踪仪分为两种类型：用于测量眼睛在其眼眶内运动的系统和用于计算视线方向（即视线（LOS））的系统。对于第二种方法，一旦知道了凝视方向，如果已知凝视区域（例如屏幕）的位置，则可以确定关注点（POR）。经常使用发光二极管（LED）近红外光，因为它对人体不可见，但有助于图像分析。这种照明会在角膜表面产生反射，从而在图像中产生明亮的像素（称为闪烁）。图1示出了由两个红外光源产生的具有两个角膜闪烁的眼睛图像。
在这里插入图片描述
图1。由两个红外光源产生的带有两个角膜闪烁的眼睛图像。

几个系统的技术基于一台摄像机和一个红外光源[2]。一些系统并入第二光源[3]或更多，以便在角膜[4]上创建特定的反射图案，从而增加跟踪的鲁棒性并提高准确性。Tomono等[5]使用由三个摄像头和两个不同偏振光源组成的系统。摄像机通过滤镜捕获由受控偏振光产生的图像，从而降低系统对外部光变化的敏感性。Yoo and Chung [6]使用五个红外光源和两个摄像头。他们的目的是使用特征平面（五次闪烁和瞳孔中心）的位置以及屏幕的实际大小，使用投影平面的交叉比率的不变值来估计凝视点。Beymer和Flickner [7]提出了一个系统，该系统使用四个摄像头和两个照明点来区分头部检测和凝视估计。他们的系统使用广角立体音响系统来检测脸部位置，并引导主动的狭窄视场（FOV）立体音响系统以高分辨率跟踪眼睛。紧随本文之后，Brolly和Mulligan [8]通过移除其中一个狭窄的FOV摄像机，将系统简化为三台摄像机。大野和Mukawa [9]提出一种与Beymer和Flickner提倡的解决方案类似的解决方案，该方案涉及眼模型的细微差异。正如Hansen和Pece [10]以及Wang等人所说明的那样，已经进行了有趣的尝试，以将系统硬件减少到一台摄像机且没有红外灯，并基于虹膜检测执行凝视估计[11]。Hansen和Pece [10]在摄像机，屏幕和用户眼球的几何形状未知的情况下，在头姿势不变的情况下检查注视确定的基本属性。Wang等[11]使用头部模型，并使用基本投影几何从椭圆图像的椭圆图像中计算出被认为是视线的虹膜圆的法线方向。

VOG设备在硬件和从映像中选择的功能方面都有所不同。注视（LOS / POR）使用图像特征进行计算，例如瞳孔中心，瞳孔中心与角膜闪烁位置之间的差异矢量以及瞳孔椭圆。任何凝视估计系统的主要目标是确定捕获的眼睛图像和观察点之间的关系。这通常是通过校准过程来实现的。校准基于要求对象查看注视区域（例如屏幕）中的特定网格点，以将某些图像特征与准确的校准点相关联。此信息为设计用于将信息从图像转换为屏幕坐标的功能的参数提供了基础。对于凝视估计表达式，一些方法使用基于未知系数的线性或二次多项式，以通过校准进行拟合。校准为计算数学表达式及其系数的值提供了信息。一旦针对受试者校准了系统，便可以进行凝视估计。简单性是基于通用多项式表达式的校准过程的主要优势。相反，缺乏对系统行为的控制是负面的属性。此外，对于难以将视线固定在屏幕上某些点上的用户而言，校准可能很麻烦。减少校准过程而又不失准确性是凝视追踪技术中最受欢迎的目标之一[12]，[13]。Shih等人的工作[14]采用数学3-D模型进行注视估计。他们提出了一种无需校准的系统，但是他们的模型验证是通过虚拟且未完成的眼睛模型确定的。Shih和Liu [15]遵循此模型，修改了他们的理论，并提出了一种使用最少的用户校准的系统：一个使用两个摄像头和两个光源的校准点。这两种方法之间的显着差异是前者将眼球的对称轴视为注视方向，这是不正确的，这将在后面解释。Beymer和Flickner [7]以及Ohno和Mukawa [9]的上述作品。提出了凝视估计建模的几何方法。Hennessey等人最近提出了更多的研究。[13]以及Guestrin和Eizenman [16]。两者都展示了分别使用四个或九个校准点的几何凝视估计方法。但是，在除[15]以外的所有上述工作中，校准研究受到限制，并且没有为所使用的校准点数量提供适当的几何依据。

无需用户校准就能估计凝视吗？如果需要校准，最少要校准多少个点？在本文中，我们证明了无论使用多少相机或光源，都必须进行校准。此外，我们显示一个校准点足以获得凝视估计。Shih和Liu [15]已经提出了一种基于立体声解决方案的带有一个校准点的系统。本文提出了一种解决方案，可将系统硬件要求降低到单个摄像机。

我们研究的凝视估计模型基于数学和几何原理，允许头部自由移动，并且需要最少的用户校准（除非另有说明，否则校准是指用户校准）。在以下部分中，将从凝视估计的角度研究系统，并为使用的眼睛模型提供详细说明。一旦描述了凝视估计方法，便会探讨系统的校准，然后研究系统的最低校准要求。第四节对图像误差和校准误差对构造的模型误差进行了形式化分析。最后，给出了实验验证和结论。

2.注视估计

图2显示了示意性系统，该系统由对象的眼睛，一台照相机和一个红外光源组成。稍后会包含其他照明。在以下段落中，讨论了与注视估计技术相关的眼球和视线机制的各个方面。
在这里插入图片描述
图2。注视估计系统。

A.眼镜的光轴和视轴

如图3所示，眼睛的光轴被认为是单只眼睛的对称轴[17]，其中瞳孔和角膜的中心（以下为方便起见称为瞳孔中心和角膜的中心））在眼球的光轴上。注视（LOS）不遵循眼睛光轴所采取的方向。根据木匠[18]的定义，LOS，不容易测量，通常认为眼睛的视轴是可以接受的近似值。中央凹是视网膜上直径为1.2°的小区域，具有高密度的视锥细胞，可实现高视觉细节辨别力和个人中心视力。当注视某个特定点时，眼睛的方向应使观察到的物体自身突出在中央凹上。
在这里插入图片描述
图3。右眼的俯视图。

中央凹从眼球的后极稍微移位。由于该偏移，相对于角膜中心存在一个水平角β如图3所示，在眼睛的光轴和视轴之间沿鼻方向大约5° [17] – [18] [19] [20]。这种水平偏移已被广泛接受，并在建模LOS [7]，[9]，[15]时引入了不同的模型。尽管存在很大的个体差异，但在垂直方向上也可以看到较小的2°至3°角度[18]。

视线跟踪系统中的误差被测量为实际LOS与估计LOS之间的角度差（图4）。视觉度的误差与工作距离和屏幕分辨率无关。视觉固定被定义为LOS（视轴）的稳定位置，它呈现低于1°的视角分散。因此，大多数凝视跟踪系统设计者都追求低于1°的凝视估计误差。
在这里插入图片描述
图4。视线估计误差计算为实际视线方向和估计视线方向之间的角度差（以视觉度为单位）。注视是一个稳定的注视方向〜1∘区域。低于此限制的错误将被接受。

视轴和光轴可以视为两条角度偏移的线 β 包含在平面上 Πv，当对象凝视一点时，它会在3-D空间中旋转和平移。扭转度Πv相对于摄像机而言，视线方向而定。唐德定律指出，相对于轴系，在特定3-D位置测量的眼球扭转度是相同的，而与眼睛到达该位置的方式无关[19]，并且完全取决于该位置关于参考系统的眼睛。一旦相对于参考系统计算了视轴或光轴的3-D位置，眼球的3-D扭转（Πv）相对于同一参考系统，可以通过应用Donder定律[21]来确定。在目前研究的情况下，首先计算光轴，然后通过应用[21]中描述的方程式估算眼球的方向。一旦光轴和Πv 相对于摄像机定义了平面位置，可以通过以下方式计算凝视方向（视轴） Πv 通过在两个轴之间应用角度偏移 β，假设可以如稍后所述进行估算。

总之，为了估计凝视，需要计算眼睛的光轴。当将眼睛的光轴称为对称轴时，可以将确定光轴的几何问题减少到对该轴上任何两个点的估计。图5显示了该问题的简化描述。让O表示相机投影中心，并且是世界坐标系的原点，其中 O =（0，0，0）。此后，将使用粗体字母表示3D点相对于相机投影中心的位置矢量。因此，眼睛的光轴包含眼球的三个主要点，其位置矢量由 A-眼球中心 C-角膜中心，以及 E-瞳孔中心。如果相对于照相机计算出这三个点中的两个点，则光轴可以直接计算为连接两个点的线。在以下各段中，用于估计角膜和瞳孔中心的方法，即C 和 E进行说明。对于每个点，都探索了两种方法：一种基于a stereo solution（立体声解决方案），另一种基于单个摄像头系统。
在这里插入图片描述
图5。系统的要点。眼睛的光轴被认为是它的对称轴。它包含瞳孔中心-E、角膜中心-C和眼球中心-A。

B.角膜反射：角膜中心

红外线照明在角膜表面产生反射。这种反射在图像中被复制为明亮的连接像素区域，即闪烁或角膜反射。

反射定律规定δi=δr，其中δi和δr分别是入射和反射光相对于法线的角度。此外，角膜被近似为中心为C[19]、半径为RC的球面(图6)。根据反射定律，照明源L，入射光和反射光与入射点反射表面的法线向量共面。推导出C包含在同一平面中，因为它包含在该平面包含的法线中。此外，相机投影中心和图像中的闪烁位置(用G_img表示)也将位于同一平面。该平面由Π_L表示，计算方法如下：
在这里插入图片描述

图6。入射光和反射光与闪烁，光源，相机的投影中心和角膜中心一起包含在一个平面中。学生中心—Ë 和眼球中心一种不一定包含在 Π大号。因此，光轴不包含在平面中。

给定两个光源L₁和L₂，相机中将产生两个角膜反射，分别为G_1img和G_2img。每个光源L_i将定义包含角膜中心C以及相机O的投影中心的平面Π_Li[图7(A)]：
在这里插入图片描述

图7。(A)如果使用更多的照明器，角膜中心将包含在平面的交点处。这些平面的交点将是一条包含O和C的三维线，L₁和L₂足以确定角膜。(B)每个摄像机与L₁和L₂的组合将产生包含每个摄像机的相应投影中心和角膜中心R_cornea1和R_cornea2的两条三维线。角膜中心计算为两条直线的交点。

角膜中心将包含在所产生的平面交线中，由角膜表示[图7(A)]。在给定两个平面和角膜的情况下，可以提出两种解决方案来求解C。

第一种解决方案使用立体系统，其中两条角膜3-D线[图7(B)]可以分别从每个相机与一对光源L₁和L₂的组合中推导出来。C包含在这些线的交叉处。这一解决方案由Shih和Liu详细描述[15]。

第二种解决方案使用一个照相机和两个光源，其中C包含在角膜中
在这里插入图片描述
在图8中，平面Π_L1包含反射光和入射光以及入射点的角膜表面法线，用G₁表示。将角膜视为镜面，应用反射定律可推导出下列矢量方程：

其中r₁是G_1img方向上的单位向量，l₁是(L₁−G₁)方向上的单位向量，n₁是(G₁-C)方向上入射点的法向量。此外，如果已知它们之间的距离，即角膜半径r_c，则G₁可以表示为C的函数
在这里插入图片描述

图8。估计角膜后，问题在Π_L1中减少到平面版本。对于给定的r_c和L₁值，唯一可能的角膜中心在正方形。更靠近摄像机的角膜中心的解与L₁位置的反射定律不匹配。对于另一种情况，来自图像中闪烁的背投光线不会与角膜相交。

角膜中心C通过求解(3)-(5)来计算。在图8中，绘制了Π_L1平面中的解，显示了C点的替代位置。位于正方形的角膜中心是唯一可行的解。

总而言之，通过两种方法确定角膜中心C的三维位置需要两个照明源，即两个闪烁：使用立体系统或在R_C是已知的情况下使用单个相机。角膜半径应通过校准过程获得，稍后将说明。

C.角膜的屈光状态：瞳孔中心

在标准系统配置中，消除角膜屈光可能会导致视轴方向的误差大于1°。如前所述，这是一个不允许的值。相机捕获的瞳孔图像是光反射回视网膜上的结果。实际上，瞳孔是眼球中的一个孔，可让光线进入，而视网膜反射的光会离开眼球。假设由于角膜内部和空气中折射率的不同，来自眼睛后部的光线会发生折射，并在穿过角膜表面时改变其方向（图9）。来自瞳孔轮廓的光的方向由于折射而在角膜处改变，并且折射的形状投射到照相机上。因此，获得的图像不是真实瞳孔的透视投影。

在这里插入图片描述
图9。由于折射，角膜在从视网膜反射回的光的方向上产生偏差。结果，获得的图像不是真实瞳孔的平面投影，而是虚拟形状的投影。

给定眼睛图像并假设角膜中心C已知(如上一节所示)，可以提出两种解决方案来计算瞳孔中心E。

第一种解决方案是基于两个摄像机的立体解决方案，它假设仿射投影，并说明图像中瞳孔中心的反投影三维线与眼睛的光轴(E−C)是共面的。假设C是已知的，并且确定了图像中的瞳孔中心，则该平面可以计算为C×E_img。使用两个摄像头，可以得出两个平面，每个平面包含眼睛的光轴。两个平面的交点表示眼睛的光轴。注意，该方法不估计瞳孔中心E，而是估计眼睛的光轴。更详细的信息可以在Shih和Liu[15]中找到。

在第二种解决方案中，如果使用单个摄像系统，并假设角膜的位置和大小分别为C和r_C(参见第II-B节)，则可以采样图像中的瞳孔轮廓(图10)。用e_k表示的每个轮廓点可以通过相机投影中心进行反投影，从而允许计算与角膜的交点。根据斯奈尔定律，n_asinδ_i=n_bsinδ_f，其中n_a和n_b是空气和与角膜后表面接触的房水的折射率，δ_i和δ_f分别是入射光和折射光相对于表面法向量的角度。
对于从图像反向投影的每个点，并且假设房水的n_b=1.34(假设房水的均匀性在该模型中)，可以通过应用如下公式的折射定律来计算角膜表面入射点的折射光[22]：
在这里插入图片描述
其中f_k和i_k分别表示角膜内部的折射光和入射光方向。此外，n_k是入射点的表面法向量。给定图像中由{e_k|k=1…n}表示的瞳孔轮廓点集合，可以借助于(6)计算线集{f_k|k=1…n}。

图10。可以对图像中瞳孔的轮廓进行采样，并将每个点反向投影到3-D空间中。对于到达角膜的光线，可以应用折射定律计算折射线f_k。

瞳孔包含在平面Π中。直线(E−C)是平面的法向量(图11)。瞳孔中心E位于该平面中，相对于C的距离为h。给定相对于相机的三维点x=(x，y，z)，平面Π可以使用
在这里插入图片描述

图11。屈光后的角膜和瞳孔。E是由平面Π与折射线的交点形成的圆周的中心。Π平面垂直于(E−C)，瞳孔到角膜中心的距离为h。

定义Π后，计算平面与折射线{f_k|k=1，…，n}的交点，并确定由{P_k|k=1，…，n}表示的一组点。这组点表示3-D瞳孔的轮廓点，或者等效地，这些点表示以E为中心的圆周的轮廓。如果|P_k−E|表示P_k和E之间的距离，则该语句可以表示如下：
在这里插入图片描述
或等同于 |P_i− E| = |P_j− E|,其中 i ≠ j(i, j =1…n)

总之，瞳孔中心表示圆周的中心，该圆周的轮廓包含平面中的折射线，并且在已知距离h处与角膜中心垂直连接。瞳孔中心E使用(8)进行数值求解，以找到约束全局最优解。从理论上讲，三条瞳孔轮廓线就足以解决这个问题，因为三个点足以确定一个圆。从经验上看，已经证明有20条线路能够在鲁棒性和计算时间之间取得可接受的平衡。

因此，假设C已知，则可以使用立体声系统来确定光轴。如果使用单个相机系统，则可以确定是否另外知道h。瞳孔和角膜中心之间的距离是通过校准过程获得的，将在后面讨论。

3.主题校准，最低要求

本文的主要目的是确定是否需要用户校准来估计凝视。上一节清楚地从两个讨论的系统中得出两个结论。首先，在使用两个闪烁的立体解决方案中，无需对象标定即可推导出眼睛的光轴。这正是施正荣等人得出的结果。[14]。其次，只有一个相机和两个闪烁的系统需要附加信息，即，需要Rc和h来确定眼睛的光轴。

确定视距需要的是视轴，而不是光轴。无论采用哪种方法，在确定光轴位置之后，都需要应用角度偏移来确定眼睛的视轴。捕获的眼睛图像不包含任何有助于确定两个轴之间的β的特征。该图像提供了用于查找角膜和瞳孔中心的有效功能，例如瞳孔图像和闪烁，但不提供有关现有角度偏移或视轴的信息。

在跟踪会话中找到对象的β的唯一方式是知道由用户固定的一个校准点在屏幕上的确切位置，由P_c表示(图12)。假设通过C和E的光轴是从图像中确定的，如上一节所述，视轴被定义为连接P_c和C的线。然后，角度β被计算为光轴和视轴之间的角度
在这里插入图片描述

图12。光轴用实线表示，由提取的图像特征计算得出。视轴定义为连接固定点Pc和C的直线。光轴和视轴之间的角度偏移估计为β。

一旦获得β，就可以将其用于跟踪会话的其余部分。因此，β的确定使得定标成为凝视估计的必备步骤。在没有校准过程的情况下，增加相机和光源的数量不能成功地提供用于查找β的信息。下一步是确定对象校准所需的最小点数。

对于立体声系统，β是唯一未知值。如上所述，1个点就足以校准该系统[15]。对于单摄像机系统，需要通过标定计算三个参数。如第二节所示，r_c和h用于光轴估计。此外，还需要β来确定凝视方向。现在讨论具有单校准点P_C是单摄像机系统的标定。分析分为两部分：r_c估计和(β，h)估计。

A.角膜半径r_c

校准过程的目标是确定r_C值。给定 L₁和L₂，并假设主体是固定P_c，则闪烁位置G_1img和G_2img可用来通过(3)估计R_cornea，如第II-B节(图13)所示。除(4)外，反射定律可应用于L₂，如下所示：
在这里插入图片描述
其中，r₂是G_2img方向上的单位向量，l₂是(L2−G2)方向上的单位向量，n₂是(G2−C)方向上入射点的法向量。

图13。由于两个光源的闪烁都符合折射定律L1−G1−G1img和L2−G2−G2img，因此r_c的校正值会导致两个光源位于相同的角膜中心。确定角膜中心后，计算视轴为连接校准点和C的直线。

给定r_c一个值，根据第II-B节，可以估计每个光源的C。r_c的解是两个照明器在同一点C产生的值
在这里插入图片描述
其中C_L1和C_L2分别是使用L₁和L₂估计的角膜中心，以及

r_c的解是通过使用假设(11)和(12)求解(4)和(10)而获得的。因此，r_c已校准并可用于凝视估计，如第二节所示。从方程式中，r_c是与C，G₁，和G₂的值一起计算的。然后计算出校准点视轴的三维位置，作为P_c和C的连接线。结果表明，一个校准点就足以求出角膜半径。

B.瞳孔和角膜中心之间的距离h.视觉和光轴偏移β

根据唐德定律，一旦计算出视轴，就可以确定眼球的方向，即平面Πv的位置为[21]。
在这里插入图片描述
其中，θ_V和ϕ_V分别是视轴相对于摄影机执行的垂直和水平旋转角度，α_v是围绕其自身的扭转角。根据已经计算的视轴位置(P_c−C)(图14)，估计θ_V和ϕ_V，并借助于(13)推断平面ΠV的最终位置。平面Πv包含眼睛的光轴和视轴，并因此包含点E和C
在这里插入图片描述

图14。计算出C之后，将视轴推断为连接C和Pc的线。利用唐德定律，计算出包含光轴的平面Πv相对于相机的位置。Π中较细的虚线表示相对于视觉轴的不同角度偏移值的可能光轴位置。

从眼睛图像中，可以对瞳孔轮廓进行采样，并将其反投影到3-D空间上。由于校准点的C和r_c是已知的，因此光线在角膜处折射，并计算折射线集合{f_k|k=1…n}(参见第II-C节)。平面Π可替换地定义如下(图15)：
在这里插入图片描述

图15.视轴的确定决定了Πv，是唐德定律的结果。该平面包含瞳孔中心E。此外，E被定义为垂直于(E-C)的平面中的圆周中心。一旦为校准点计算了E，就可以确定(β，h)。

可以计算Π与折射线的交点，即{p_k|k=1…n}。因此，使用(8)和(14)去找到满足约束条件的全局最优解E，导出了E后，并估计了参数β和h。角度偏移β通过(9)和h作为两个主点|C−E|之间的距离来获得。

C.讨论

一个校准点在几何上足以用单个相机校准被摄体凝视估计模型，以求出r_c、β和h。正如已经提到的，Shih和Liu[15]提出的系统只基于一个校准点。该系统的校准目的是使用立体环境来确定眼睛β的光轴和视轴之间的角度偏移。该方法基于严格的几何分析，证明了一个简化的系统可以用一个摄像机和一个校准点来实现。没有对头部移动施加任何限制，这意味着结果可以应用于自由头部移动方案。

4.模型的误差分析

5.实验验证

在以上分析的基础上，本文提出并测量了一种由单个摄像机，多个红外光源和一个校准点组成的凝视跟踪系统的性能。选择了六个受试者进行测试。工作距离被选择为距相机500至600 mm。受试者对系统的经验很少或没有经验。图18示出了选择的注视标记均匀地分布在注视区域中。相对于网格原点，给出了每个点的毫米位置。网格原点被认为是其左上角（图18中的点1）。要求受试者将视线固定在每个测试点上一段时间（1至2 s）。参与者选择了他们喜欢的眼睛。在实验过程中使用下巴托，以免造成焦距过大的情况。在固定之间，受试者的头部位置发生了变化，但在每次测试点测量期间均不允许头部运动。对于每个注视，获取并处理十个连续图像。大多数凝视跟踪系统的标准配置都将摄像机置于监视器下方，从而将模型的验证限于摄像机的上部。必须证明该模型能够在摄像机周围的任何点进行校准和估计注视。为了在相对于相机对称的替代区域中测试构建的模型，图18位于相机的中央。将获得的误差与作为系统性能指标的1°视角的极限值进行比较。
在这里插入图片描述
图18。测试表。选择了十七分进行测试。每个点相对于网格左上角（点1）的位置以毫米为单位。

6.结论与未来工作

已经建立了凝视估计模型。它基于具有多个光源的单个摄像机。它的主要新颖之处在于可以仅使用一个校准点进行校准。为了构建这样的模型，已经使用了数学分析，包括未被替代注视估计模型（例如Donder定律）考虑的新颖方面。该分析得出以下结论。已经证明了校准的必要性，其中，光轴和视轴之间的角度偏移要求对系统进行校准，而与使用的摄像机数量无关。同样，一个校准点就足以构建一个注视估计模型。建议的校准过程基于几何分析，可以同时计算光轴和视轴之间的角度偏移，角膜半径以及瞳孔和角膜中心之间的距离。此属性可以将硬件从立体声解决方案新颖地减少到仅基于单个摄像机的系统。最后，已经通过增加光源数量来测量和降低了模型相对于图像中闪烁不确定性的灵敏度。实验测试证实了预期的结果。尽管对于具有两个LED的系统获得了足够的凝视估计误差，但是使用三个和四个LED可以提高模型的性能。同样，增加校准点的数量或摄像机的数量也为系统提供了鲁棒性。此属性可以将硬件从立体声解决方案新颖地减少到仅基于单个摄像机的系统。最后，已经通过增加光源数量来测量和降低了模型相对于图像中闪烁不确定性的灵敏度。实验测试证实了预期的结果。尽管对于具有两个LED的系统获得了足够的凝视估计误差，但是使用三个和四个LED可以提高模型的性能。同样，增加校准点的数量或摄像机的数量也为系统提供了鲁棒性。此属性可以将硬件从立体声解决方案新颖地减少到仅基于单个摄像机的系统。最后，已经通过增加光源数量来测量和降低了模型相对于图像中闪烁不确定性的灵敏度。实验测试证实了预期的结果。尽管对于具有两个LED的系统获得了足够的凝视估计误差，但是使用三个和四个LED可以提高模型的性能。同样，增加校准点的数量或摄像机的数量也为系统提供了鲁棒性。尽管对于具有两个LED的系统获得了足够的凝视估计误差，但是使用三个和四个LED可以提高模型的性能。同样，增加校准点的数量或摄像机的数量也为系统提供了鲁棒性。尽管对于具有两个LED的系统获得了足够的凝视估计误差，但是使用三个和四个LED可以提高模型的性能。同样，增加校准点的数量或摄像机的数量也为系统提供了鲁棒性。

尽管目标是理论上的，但取得的成果鼓励我们构建一个实用的系统。当前，该系统使用记录的图像脱机工作。离线评估中测得的分析时间为每秒八到十张图像。为了拥有一个可用的系统，实时性能是必需的。目前，目标是将设计的校准和凝视估计算法移至系统的更多功能版本。作为未来的工作，我们建议对实时系统进行系统的验证。实验将在受试者不受限制的自由头部运动的情况下进行。我们还想通过将LED数量增加到四个以上来测试减少错误的能力。从实用的角度来看，将眼镜和隐形眼镜的效果研究到模型中也很重要，因为它们会改变光的折射和反射。我们认为必须继续对该方法进行理论研究，以便为凝视估计技术建立数学基础。