用头部运动学习无姿态注视偏差

最新推荐文章于 2023-10-12 16:28:28 发布

俺想发SCI

最新推荐文章于 2023-10-12 16:28:28 发布

阅读量671

点赞数

文章标签：计算机视觉经验分享

本文链接：https://blog.csdn.net/Yoyo211399/article/details/124903872

版权

keywords 注视估计自由头部运动头部姿态补偿基于外观的方法

【摘要】

现有的方法：

根据捕捉到的眼球形态估计人眼注视方向时，由于头部运动会对眼球形态产生较大的影响，因此通常需要假设一个固定的头部姿态，从而导致估计不准确。

为了解决这一难题，

本文提出了一种新的方法，在不限制用户头部运动的情况下进行精确的注视估计。

其关键思想是将原始自由头运动问题分解为子问题，

小问题包括：初始固定头姿态问题和后续补偿来纠正初始估计偏差。

在初始估计方面，引入了图像自动校正和带注视估计的联合对准。

补偿：通过基于学习的回归或基于几何的计算完成补偿。

（使用这种补偿策略的优点是，训练要求中允许头部运动的没有显著增加; 只需要捕捉一个5秒的视频剪辑。实验结果表明，该方法在单摄像机条件下平均精度可达3°左右）

【1 介绍】

[ 过渡句加上前人的研究加上她们研究的不足现在的调查什么的发展情况都可以说

再说说我们的好 ]

根据最近的调查[3,4]，现有的基于计算机视觉的方法大致可以分为两大类:

基于模型的方法和基于外观的方法。

第一类方法采用3D或2D眼球模型来估计注视方向，但仍需要一些额外的设备，如红外光和摄像头。因此，它们更适合在受控环境中使用，如实验室。

基于外观的方法具有只使用一个普通摄像机，是优点

[3] D. Hansen, Q. Ji, In the eye of the beholder: a survey of models for eyes and gaze,
IEEE Trans. Pattern Anal. Mach. Intell. 32 (2010) 478–500.

纪琦，《旁观者眼中的眼睛:眼睛与凝视模型的研究》，《电子与信息学报》，译。模式肛门。马赫。intel . 32(2010) 478-500。
[4] C. Morimoto, M. Mimica, Eye gaze tracking techniques for interactive applications,
Comput. Vis. Image Underst. 98 (2005) 4–24.

张志刚，张志刚，张志刚，视觉跟踪技术在人机交互中的应用。Vis. Image understand . 98(2005) 4-24

[ 本文重点研究了基于外观的方法 ]

解决了头部自由运动的主要难点。这一问题的困难在于头部运动会对眼睛外观产生很大的影响，因此，随着眼睛外观的变化，对注视的估计将是不准确的。

解决这个问题的一个简单方法是在系统中存储每个头部姿势的所有眼睛外观。然而，由于头部运动有6个自由度，直接处理由于头部运动而可能出现的所有眼睛现象变得不切实际。

本文的核心思想是将原本困难的问题分解为简单的子问题并高效地求解。

特别地，我们不考虑对任意头部姿态的注视估计，而是先假设一个固定的头部姿态进行注视估计，然后对头部姿态差异引起的估计偏差进行补偿。该补偿包括两个阶段，即眼睛外观畸变（失真）补偿和几何补偿。我们提出了完成这些补偿的方法，并表明可以准确地对任意头部姿态进行注视估计。

主要的工作有：

(1)提出了一种将困难的头部自由运动问题分解为容易的子问题的注视估计方法。

(2)用我们提出的补偿方法解决了子问题，该方法纠正了由眼睛外观失真和几何因素引起的注视估计偏差。

(3)补偿头部运动的训练成本低。它只需要捕捉一个用户自由头部运动的一个5秒的短视频剪辑

(4)通过图像校正和迭代优化，对不同头部姿态下的眼部图像进行鲁棒对齐。

总的来说，与现有的基于外观的方法相比，我们的方法不使用任何其他设备，而它允许头部运动通过只需要额外的校准步骤来捕获短视频剪辑。如果与也允许头部运动的现有基于模型的方法相比，我们的方法只使用了一个已知位置和内在参数的普通相机，而大多数其他方法使用多个相机/灯光，有更复杂的相机/几何校准。

【2 相关工作】

根据最近的调查[3,4]，现有的基于计算机视觉的方法大致可以分为两大类:

基于模型的方法和基于外观的方法。

属于前一类的方法在捕捉到的眼睛图像中提取并利用非常小的眼睛特征，如角膜表面的反射点[5-9]、瞳孔中心[10,11]、虹膜轮廓[12]。

这些特征被用来匹配一个2D或3D眼球模型，以几何方式计算注视方向，而不考虑头部姿势。

例如，Beymer和Flickner[13]提出通过安装在立体声云台上的放大摄像机和红外led来产生和检测角膜反射。此外，另外两个大范围立体摄像机用于眼睛位置跟踪。brobly和Mulligan [14]， Nagamatsu等人[15]，Zhu和Ji[7]等人也提出了类似的方法来准确提取和利用角膜反射点。为了减少摄像机的数量，Villanueva和Cabeza[8]建议使用更多的红外led来实现精确的几何计算。Yoo和Chung[5]提出了一种基于交叉比的新方法，该方法计算眼球、相机、屏幕的三维关系。Kang等[16]进一步改进了交叉比法，考虑了个体眼球参数的差异。

尽管基于模型的方法在处理头部运动等方面显示出优势，但它们也有局限性。首先，提取眼睛中的小眼睛特征不容易。因此，始终需要高分辨率甚至红外成像。其次，以前的许多作品进一步需要特殊的相机和机械装置[13,14,17]来允许头部运动，这对于普通用户的日常生活是不适用的。

相反，基于外观的方法的优势在于只需要一台在自然光照下工作的相机。他们只使用普通甚至低分辨率的图像。他们通常将整个眼睛图像作为高维输入向量，并学习这些向量与注视位置之间的映射关系。早期的方法，如Baluja和Pomerleau提出的神经网络。[19]需要成千上万的标记训练样本来训练映射。Tan等人[20]提出利用252个采集的训练样本构建眼睛外观流形，并利用流形凝视的局部结构进行插值。为了减少标记训练样本的数量，Williams等人[21]引入了半监督高斯过程回归，同时使用标记和非标记训练样本。Sugano等人[22]研究了图像显著性，并提出了一种用户不知道的校准方法，该方法在用户观看视频剪辑时执行。这个想法也被用于基于模型的方法[17]。L u等[23]引入了一种新的回归技术，利用稀疏训练样本实现高精度注视估计。

然而，对于基于外观的方法，允许头部运动是比较困难的。简单地在头部运动下进行注视估计会导致显著的较大误差[24,25]。Nguyenetal。[26]建议收集不同头部姿态的训练图像，这导致了长时间的校准。Sugano等人[27]提出在用户自然使用计算机时，逐步重新收集训练样本。

[ 不行啊不行啊有挑战啊有挑战 ]

（虚线像摄像机方向）

【3 方法概述】

【1 头部运动问题】

e∈ℝm眼睛外观向量包含m个像素

r = [rx, ry, rz]T∈ℝ3 3D头部旋转向量

t = [tx, ty, tz]T∈ℝ3 3D头部平移向量

g = [gx, gy, gz]T∈ℝ3 3D凝视方向向量

数据测试样本

Tg = {ei | i = 1⋯n}的训练数据集眼外观

Tg = {ri | i = 1⋯n}的训练数据集的头旋转

Tg = {ti | i = 1⋯n}的训练数据集的头翻译

Tg = {gi | i = 1⋯n}的训练数据集的视线方向

T = {Te、Tr、Tt、Tg}完整的训练数据集

r0,t0固定头部姿态的旋转和平移

t0 = {T0e,T0g} r0、t0对应的训练数据集

表1首先给出了一些重要的符号。

注视估计问题可以表示为:式子1，

其中E(·)是使用训练数据集T = {Te, Tr, Tt, Tg}从眼睛外观^ E估计注视方向^g1的函数。

本文始终使用字母e、r、t、n、g分别表示眼睛图像向量、头部旋转、头部平移和凝视方向。

注意，公式(1)中定义的问题并没有假设一个固定的头部姿势;因此，在三维坐标系中输入的头部旋转向量和头部平移向量的头部姿态参数^r和^t也作为问题的输入。还要注意，严格来说，3D凝视是由其3D方向和3D来源定义的。在本文中，我们关注它的3D方向，因为3D原点只是可以通过头部/眼动仪直接跟踪的眼睛位置。在本文中，我们解决Eq.(1)定义的问题。如图1所示，我们的目标是

在世界坐标系(WCS)下估计注视方向^g，而由头部姿态(^r;^t)确定的头部坐标系(HCS)由于头部运

动可能是任意的。

【问题的分解】

把难的问题变成简单的小问题，用之前提到的 假设是在固定的头部姿态下考虑问题。

式子1变成式子2

其中T0 = {T0e,T0g}为头部固定姿势(r0, T0)采集的训练数据集，函数Er0; T0(·)仅对头部固定姿势进行注视估计。

该子问题可以用前面的方法给出初始解来求解。

但是，如果头部移动，上述注视估计可能包含重大误差。图2给出了一个使用临时符号α、β等的例子。如图2(a)所示，固定头部姿态下的估计注视方向，r0, t0, i s α。

然后，如图2(b)所示，如果头部姿态移动到(^r;^t)，估计的注视方向α '将与真实的注视方向存在偏差β。因此，我们需要用β来补偿α′，以获得正确的注视方向。这就引出了目光补偿的概念。

此外，凝视偏差的补偿可以进一步分解为两个阶段，如图2(c)所示。

1 ，α′不同于α，因为头部的运动改变了摄像机的观察方向，从而扭曲了眼睛图像(见图2中的小眼睛图像)。这导致了估计偏差，βD。

2，凝视方向随着头部几何旋转而旋转，这导致了另一种偏差，βG。

注意，βG有一个精确的封闭式解，可以用几何方法计算，而βD没有。

因此，本文将两种补偿分别处理，因此，不确定性主要趋近于βD;因此，总误差是有限的。

这样做的另一个原因是，计算βG只需要头部旋转角度作为输入，而βD依赖于与所有头部姿势参数相关的摄像头的观看方向。因此，最好将这两个补偿问题分开处理。

考虑两种补偿于是有新的公式3333333333

D是通过头运动所以跟r0和t0有关系， G通过旋转所以跟r0有关

最后，图3总结了我们处理该问题的分解方案，并简要展示了我们的补偿技术的关键。

获得初始解的方法在第4节中描述，然后在第5节中描述我们的补偿技术的细节。

实际上，第5.1节中的眼睛外观失真补偿使用了通过一种新的校准方法获得的一组特殊的训练样本。该校准以一种聪明的方式获取足够的训练样本，只捕获用户的一个非常短的视频剪辑。与不允许头部运动的传统基于外观的方法相比，这个视频是我们方法的唯一额外训练成本

如果头部姿势改变，估计失败=出现失真效应+几何效应

FIG3头部运动的问题和我们处理问题的补偿的关键

【3.3 实现和程序】

基于所提出的补偿方法，可以实现一个头姿自由注视估计系统。

只使用一个摄像头来捕捉用户眼睛的外观，不需要任何额外的设备。

为了获得头部姿态，本系统使用了商用的头部姿态跟踪器[29]。它使用已知的内/外参数相同的单一相机，其技术细节可以在[29]中找到。我们的系统按以下步骤工作。

[29] faceAPI, http://www.seeingmachines.com/product/faceapi/2012.

【3.3.1 获取训练数据】

通过校准得到训练数据集T = {Te, Tr, Tt, Tg}。

为了获得足够的训练样本，需要进行两个阶段的校准：

固定头位姿校准
通过捕获短视频片段进行校准

用户被要求坐在屏幕前，注视特定的屏幕位置，即校准点。一个单一的摄像头被放置在屏幕下面。系统获得的第i个训练样本包括Ii, gi, ri, n d ti，其中Ii为采集到的人脸图像，从中提取眼睛特征ei。

第一个校准阶段，要求用户选择并保持固定的头部姿势(r0, t0)，注视屏幕上显示的不同校准点。当他/她点击鼠标按钮时，他/她的面部图像将被捕获。

头跟点动按鼠标

第二校准阶段是新颖的。用户被要求注视屏幕上一个固定的校准点，并做头部运动，让摄像头录制一个短视频剪辑。由于注视位置固定，头部运动相对自由，该阶段仅持续数秒以获得足够的训练样本。视频中训练样本的细节和用法将在后面的5.1节中解释。两个校准阶段都应该针对每个用户进行。

盯不动点动头录短视频

【3.3.2 获取测试数据】

测试：

人随意动头，鼠标选择凝视的位置点击鼠标就会存储当前注视点位置&捕获图像，同时，头部姿势跟踪器返回头部姿态参数。用这种方法得到了一个测试样本的^e， ^g， ^r, an nd ^t。

【3.3.3 目光估计】

对于任何测试样本，使用测试样本{^e;^r;^t}和训练数据集t（由Eq.(1)计算的），并使用我们提出的技术求解

这个问题首先被转换成它的分解形式(Eq.(3))，然后用下面几节介绍的技术来求解。

此外，测试样本中的注视方向^g作为评估估计精度的地面真值。

【4 目光初始化】

注视估计方法包括两个步骤： 初始注视估计和注视偏差补偿（如公式(3)所示）。在此过程中，我们描述了如何通过假设一个固定的头部姿势来获得初始注视估计结果。

首先根据头部姿态对所捕获的图像进行校正，然后同时进行眼区对齐和头部固定姿态凝视估计。

[ 4.1 图像校正 ]

现有的固定头姿态注视估计方法不需要进行图像校正，因为它们只需要眼球方向不同就能捕捉到几乎相同的图像。然而，当处理头部运动时，捕获的用户外观将发生巨大变化，如图6(左)所示。

这导致了基于外观的凝视估计的巨大困难，因为裁剪的眼睛区域(显示在小矩形中)显示任意的姿势。-------需要进行图像校正。

图6 右边是左边校正后的图像

校正图像的关键是“假设”旋转摄像机，使摄像机坐标系与头部坐标系平行。

可以认为相机是按照头部的运动来移动的，因此，捕捉到的图像看起来是一致的。

校正后的图像示例如图6(右)所示，其中被裁剪的眼睛区域(显示在小矩形中)具有相似的姿态，可以很容易地用于凝视估计。

校正，我们的方法需要相机的内部参数（参数可以通过使用校准板进行校准估计。（做一次快））

如上所述的假设运动摄像机的外部参数不需要已知即可进行校正，如下所示。

校正如下：

将当前头旋转记为r = [rx, ry, rz]T后，
将摄像机绕X, Y, Z轴依次旋转，旋转角度ωx =−rx， ωy = T a−1(tan ry·c o s rx)， ωz =−rz。

因此，整个旋转矩阵可以写成式子（4）‘’

用旋转矩阵旋转相机 ------校正图像

3D点P 被拍摄成 2D点小p 看式子555555555

式子5： K是摄像机内部矩阵 R|T是外部矩阵

将旋转矩阵加入后变成新的2D像素 p+ 式子看66666

式子66中z、z†均为标量，且消去了相机外部参数[RT]。

注意，在式(6)中，所有已知的原始像素位置p转换为修正像素位置p†，除了z和z†，它们彼此非常接近，可能只会稍微调整图像大小。

通过变换图像中的每个像素，我们得到了如图6(右)所示的校正图像。

在校正和估计过程中，对所有捕获的图像进行上述校正。

在下一节中，我们将描述如何在矫正后的图像中对齐眼睛区域，并处理小的缩放差异，然后我们使用这些眼睛图像进行初始凝视估计。

【4.2 眼睛图像对齐的初始凝视估计】

假设一个固定的头部姿势。

1. 训练数据T0 = {T0e, T0g} 在一个固定的姿势,头(r0、T0)使用。该T0包含n0个训练样本，每个样本包含一个向量ei∈T0e，由训练眼图像Ii获得，以及一个凝视方向向量gi∈T0g，其中i = 1，⋯n0。

2. 对于一个测试样本，我们同样有一个眼睛图像向量^e，并寻找其对应的未知注视方向^g。

（注意，头部姿势参数^r和^t在这里不被考虑，因为我们假设头部姿势是固定的。）

现在的问题是寻找一个映射，ei↦gi，从高维空间到3D凝视方向空间。遵循之前的头部固定位姿方法[20,23]，我们使用局部线性映射来解决这个问题:

只有当ei是四个在欧氏距离上最接近e的向量之一时，权重wi≠0。式(7)解决了第一部分，即式(3)中的初始估计。

注意，上述方法在我们的场景中面临一个问题。以前的固定头部姿态方法捕捉固定头部姿态下的图像，因此，可以从相同的位置裁剪每个眼睛图像，以产生一个眼睛图像向量^e。

然而，在我们的案例中，头部运动在所捕获的图像中任意移动眼睛区域，如图6(右)所示。

在提取人眼图像向量之前，需要对人眼区域进行对齐。在这里，我们介绍了一种同时对准和估计技术。第4.1节中的图像校正简化了对齐问题，以便对齐只需要平移和轻微缩放。

此外，头部姿态跟踪器[29]返回粗略的眼睛位置，可以用于初始化眼睛图像对齐。因此，我们只需要以较高的精度来细化对准。

令^I表示捕捉到的图像，令^J表示从^I开始对齐的眼睛区域。

τ和s为平移和缩放参数。我们使用算法1中的方法，将重建的训练图像I '对准^I中的最优区域，找到测试眼区域^J。通过注视估计得到重建的训练图像I’。特别地，如Eq.(7)所示，我们计算一个权值{wi}的线性组合，因此，I '通过使用相同的权值{wi}从训练图像中重构。

注意，算法1中的对齐方法是基于Lucas-Kanade方法[30]的。虽然他们的方法在极端运动中可能会失败，但它在我们的情况下很有效。原因是我们的头部姿态跟踪器已经初始化了眼睛区域，因此，我们只需要用有限的像素优化对齐。因此，我们可以稳健地对齐，如图7所示。还要注意的是，严格地说，不同头部姿势的眼睛图像的对齐不能是完美的，因为这些图像被3D头部运动扭曲了。然而，我们在4.1节中提出的图像校正部分处理了这种失真（选择摄像机使摄像机和头运动的坐标一致），而我们在5.1节中提出的外观失真补偿处理了剩余的效果

[30] S. Baker, I. Matthews, Lucas–Kanade 20 years on: a unifying framework, IJCV 56
(2004) 221–255.[30] S. Baker, I. Matthews, Lucas-Kanade 20年:统一框架，IJCV 56(2004) 221-255。

总结方法

综上所述，本文提出的迭代方法同时对注视估计和眼睛图像对齐进行了细化，最终得到了Eq.(7)的最优解作为初始固定头位姿注视估计结果。图7显示了这个过程的一个例子。

算法1。同时校准和估计

初始化τ和s

当τ和s没有收敛时候

•利用τ和s从^I得到的嗉眼区域^J

•通过光栅扫描从^J中提取^e

•通过式(7)中的注视估计求解权值{wi}

•计算重建图像I '

•采用Lucas-Kanade方法[30]更新τ和s，将I '对准^中的最优区域

【目光补偿】

描述由于头部运动而存在的注视估计偏差如何补偿初始注视估计(第4节)中。

【5.1 补偿1:眼睛外观失真】

讨论眼睛图像失真如何影响注视估计结果。

首先，有必要了解眼睛图像是如何由于头部运动而扭曲的。图4显示了不同头部姿势下的眼睛图像示例。

图4：

HCS头部坐标系，虚线红指向摄像机

前两个外观非常相似，尽管其中一个是在图像平面内旋转的(这种旋转可以被纠正，如4.1节所示)。

第三眼图像由于其摄像机的观看方向不同，其形状存在明显的畸变，这种畸变无法通过二维图像变换进行矫正。

这一观察结果导致了这样一个事实，即相机的观看方向决定了眼睛的外观失真。

为了描述摄像机的观看方向，我们在头部坐标系统(HCS)下表示它们（虚线红）。如图4所示，这些方向在HCS下显示为指向摄像机的矢量。前两种情况下的向量在HCS下是相同的，说明对应的眼睛图像具有相似的2D外观，而第三种情况下的向量是不同的，眼睛图像有明显的扭曲。

使用符号Vc∈ℝ3来表示任意头部姿态下摄像机在HCS下的视向向量（虚线呗）。

特别地，设V下0上c为固定头部姿态r0, t0时不变的摄像机的观看方向向量。

然后对于任何头部姿势，我们可以计算差异Δvc = vc−v0c。（当前头部姿势-固定姿势）

我们声明Δvc与由于眼睛图像失真引起的凝视估计偏差密切相关。

为了表示这种“凝视估计偏差”， Δϕ = [Δϕx， Δϕy]表示在WCS下绕X轴和Y轴旋转，如图1所示。Δϕ = [Δϕx， Δϕy]的物理意义是，可以围绕X轴和Y轴旋转Δϕx和Δϕy，以成为正确的注视方向。因此，Δϕ代表了凝视偏差。

Δvc是摄像机的方向当前-固定头姿

Δϕ是在世界坐标系中进行选择的xy周角度-----以成为正确的注视方向

Δvc视向向量的差值 --------映射Δϕ Δϕ应该是多少--------该怎么转动是正确方向

然后，找出摄像机的视向向量的差值Δvc与注视估计偏差Δϕ之间的关系。如果可以找到映射Δvc↦Δϕ，人们可以从Δvc获得Δϕ的注视偏差补偿。

为了学习映射，我们首先通过校准收集不同Δvc的训练样本。

（一种简单的非常规校准方法，当用户凝视一个固定的屏幕位置并自由旋转他/她的头部时，捕捉一个短视频剪辑。低成本时间快）

对于每个得到的训练样本{ei, ri, ti, gi}，我们计算相应的Δϕi和Δvic，并进行上述计算

【求VC &Δϕ 】当前Vc：摄像机在HCS下的视向向量Vc由头部平移t = [tx, ty, tz] t和头部旋转r = [rx, ry, rz] t决定。在标定和估计阶段中，头位姿跟踪器可以实时地得到t和r

由t和r计算vc的方法为:式子（8）其中函数r(·)由式(16)定义

偏差Δϕ = [Δϕx， Δϕy]将任意初始注视方向g0旋转到失真补偿注视方向gd。因此，Δϕ = [Δϕx， Δϕy]必须满足以下关系:(9)(10)

其中gd,x等是gd的元素， g0,x等是g0的元素

gd应该是扭曲补偿凝视方向。也就是说，这是经过失真补偿后的预期结果。

gd在测试时是未知的;我们只能在标定阶段获得作为训练数据。

对于第i个训练样本，我们通过根据头部旋转ri和r0旋转gi来计算gid:式子(11)，它应用了后面5.2节中描述的逆几何补偿。然后使用得到的gid通过Eq.(10)为第i个训练样本计算Δϕi = [Δϕix， Δϕiy]。

有g0 任意方向的注视方向（ground truth）应该是已知---------gd式子（9）--------Δϕ（10）

在式(11)中，gi是地面真实凝视向量，从用户的眼睛指向已知的屏幕校准位置。

因此，gi依赖于相机外部参数，即屏幕与相机的相对位置，将头-相机坐标转换为头-屏幕坐标。

这些参数存在误差，在测试中会部分抵消，无事

【5.1.2 通过高斯过程回归进行补偿】

求完了 VC &Δϕ 得用上开始求Δvc↦Δϕ的映射

{Δϕi}∈ℝ2有两个元素，因此我们学习了两个一维回归。以第一个元素{Δϕix}为例，回归函数为(12121212121212)。

根据标准GPR模型[31]，定义式(12)中的项，求解如下。首先，均值和协方差函数定义为(1313)

其中σ2为观测噪声模型。

训练阶段：我们把所有训练数据写成y =(Δϕ1 x,⋯,Δϕ第九,⋯,Δϕnx] T和V =(Δv1c,⋯,Δ维克,⋯,Δvnc) T, 然后通过最小化边际似然函数优化超参数ω= {k, l,σ2} （141414141414）

其中Kω(V,V)为协方差矩阵，其在(i,j)的元素为Δvic， Δvjc，如式(13)所示。

在估计阶段：

对于一个测试样本(^e;^r;^t)， Δ^vc先由^r和^t计算出来。

然后,我们用优化的超参数，预测Δ^ϕxΔ^ vc 用式子(15 ).

分别得到Δ^ϕx和Δ^ϕy后，

利用它们对眼睛外观失真引起的注视估计偏差进行补偿：

这可以通过在X轴和Y轴上分别用Δ^ϕx和Δ^ϕy旋转第4.2节中初始估计的注视向量Er0,t0（）实现。整个过程写成E r0,t0()，在等式(3)之后，其中C r0,t0 -D()表示本节描述的方法。

【5.2 补偿2:几何偏差】

在对眼睛外观失真进行补偿后，本节处理由几何因素引起的剩余注视估计偏差。特别是，因为到目前为止，凝视方向是通过假设一个固定的方向(r0, t0)来估计的，我们需要根据r0和真实头部方向^r之间的差异进一步旋转它。这个问题的定义如图5所示。在WCS下，已知头部方向r0的原始注视向量。现在，我们想要旋转HCS从r0 =[]到^r{}，而注视向量将经历相同的方向。问题是，我们如何在WCS下获得旋转的注视矢量。

我们一步一步地分析HCS从r0到--------^ r0的旋转，并将这些旋转应用到任意向量a0-----a

注意，这里我们使用一个任意向量a0，而不是注视向量来讨论一般情况：：因为这样的旋转可以应用于任何向量，如公式(8)。

首先将HCS从r0---------旋转到[0,0,0]T，然后------------再旋转到^r。
在每个步骤中，我们依次在WCS下对X、Y和Z轴进行旋转。
这样，我们可以用同样的旋转方法旋转任何a0-------a:

【实验评估】

凝视评估系统建立在桌面电脑上，带有VGA分辨率的摄像头和22英寸的液晶显示器。

用户必须坐在距离显示器约60厘米的地方。

然后，分三个阶段进行注视估计实验:

1)在固定头部姿态下采集训练样本;

2)在头部自由旋转时采集训练样本;

3)在头部自由运动时进行注视估计实验。这些程序的详细说明见第3.3节。

注意所有屏幕上的注视位置在使用前都会转换成注视方向。首先通过头部姿势跟踪器跟踪3D用户的眼睛位置，然后计算从眼睛位置到屏幕上相应凝视位置的3D方向。

我们的实验数据用未经优化的Matlab代码处理。外观失真补偿(估计模式下的高斯过程回归)和几何计算可在500 fps和>1000 fps下运行，而卢卡斯- kanade跟踪则成为瓶颈(<1 fps)，其N个像素的计算复杂度为O(n2N + n3)和N个对齐参数[30]。然而，使用C/ c++实现实时卢卡斯- kanade实现来解决更大的问题已经在许多现有方法中报道过了。因此，我们的方法的实时实现也是可能的

【6.1 固定头姿势凝视估计】

我们首先研究第4.2节中描述的固定头姿态注视估计方法，而不涉及注视补偿过程。

通过要求用户注视屏幕上的每个校准点来收集训练样本，如图8所示，并保持头部固定姿势。

然后，当用户在保持固定头部姿势的情况下自由选择注视位置时---------------采集测试样本。

6个用户，平均估计误差在0.8°左右。

我们的结果与以前的固定头姿势方法报告的结果的比较如表2所示。

注意，这些方法都需要使用固定的头部姿势进行个人校准。如表所示，在所有方法中，我们的方法具有较好的准确度。尽管其他一些方法显示出更好的准确性，但它们要么需要更多的训练样本，要么实现更复杂的算法，而我们的方法在准确性和简单性之间取得了平衡。注意，本文的目的是处理自由头部运动;因此，首选一个简单而良好的固定头姿态估计器作为基础。

【6.2 眼睛外观失真补偿】

我们定量地研究了第5.1节中提出的眼睛外观失真补偿技术。为了校准，我们在屏幕中心显示一个静态点作为已知的凝视位置。然后，每个用户被要求盯着那个静止的点，转动他/她的头。同时，摄像头将用户的外表记录在5秒的视频片段中，以获取实验所需的训练样本。这些训练样本的一些眼部捕捉图像如图9所示，其中头部旋转轨迹大致呈现。

表3进一步给出了由于头部在X和Y旋转中运动而导致的摄像机的观看方向变化范围。

通过使用这些训练样本，我们学习了第5.1节所述的高斯过程回归模型。

图10为Δϕix和Δϕiy的回归输出，清晰地呈现了眼外观失真补偿与头部运动之间的关系。特别是，围绕X轴的补偿角Δϕix随着头部的上下旋转而增大，而围绕Y轴的补偿角Δϕiy则交替增大和减小，反映了头部左右方向的变化

为了评估模型的准确性，我们通过选择每个样本作为测试样本实现了留一实验，（留一个？？？剩下的都是其余样本？？？）并使用其余的样本来训练回归模型。

然后利用训练好的模型对测试样本进行外观畸变补偿。

所有被试的实验结果如表4所示，由头部运动引起的注视估计误差达到13.7°，经学习模型对眼睛外观畸变进行补偿后，误差减小到2.1°。

为了直观地显示误差随头部运动的变化情况，图11给出了一个有代表性的被试的准像结果。在没有补偿的情况下，估计误差随着头位姿的显著变化而增大，当头位姿接近原始头位姿时误差减小。然而，通过我们的补偿，估计误差始终是稳定和小的。使用补偿和不使用补偿的估计误差的显著差异表明了所提出的方法在补偿眼睛外观失真方面的有效性

【6.3 头部自由运动下的估计精度】

在本节中，我们评估了所提方法在用户头部自由运动下的注视估计精度。

实验为十名受试者完成，训练样本在固定头部姿势下收集，也从一个短视频剪辑中收集，如前几节所述。

在测试阶段，每个用户在屏幕上随机选择注视位置，并通过鼠标点击来告知系统注视位置。他们的头部姿势不断变化，这样我们就可以评估我们的方法处理头部运动的能力。

本实验测试阶段头部运动范围见表5。在我们的实验中，头部平移覆盖了很大的范围，用户可以在不移动身体的情况下自由地平移他/她的头部，而头部旋转范围覆盖了整个屏幕区域。因此，我们测试的头部运动范围足以用于普通的用户计算机场景。

我们对采集的测试样本采用不同的补偿策略进行注视估计。

例如，图12为被试S1的注视估计误差，其结果

分别采用完全补偿、只进行几何补偿、只进行畸变补偿和不进行补偿。通过误差比较，从估计精度方面证明了所提补偿方法的有效性，而在用户头部自由运动时，仅使用一种补偿或不使用补偿会导致较大的估计误差。

此外，图13绘制了所有10个实验对象的平均注视估计误差。请注意，由于个性和头部运动的不同，不同受试者的误差值可能会有所不同。

然而，本文提出的方法只有在同时使用两种补偿时，才能使所有主体的估计误差最小。特别地，在头部自由运动的情况下，我们的方法可以达到2-3°的估计精度，而如果不处理头部运动，这个数字将大于7.5°。这表明了该方法的有效性。请注意，只使用一种补偿可能比使用其中一种补偿造成的误差更大，如图13所示。这是因为眼睛外观失真和几何因素以不同的方式产生注视估计误差

它们的作用可能相互抵消。因此，当只补偿其中一个时，剩余的可能比以前更大。综上所述，这两种补偿在实践中都是必要的

最后，定量研究了头部跟踪误差对注视估计精度的影响。困难在于我们没有地面真实的头部姿势，因此，我们不知道头部跟踪误差。而当只进行几何补偿时，增加头部姿态误差会引起几乎相同的注视误差增量。

因此，我们在原始头姿中加入高斯噪声，只进行几何补偿。注视误差平均增加1.8°，表明头姿误差增加幅度相近。然后，采用相同的噪声头姿完成测试，得到畸变补偿的注视误差增量为0.7°，完全补偿的注视误差增量为0.8°。结果表明，头部跟踪误差对注视估计精度影响不大。当头部跟踪误差增大时，两种补偿出现相互补偿。此外，我们工作中使用的头部姿态跟踪器[29]报告了0.5-3°的精度，这已经包含在我们的最终结果中。

表6给出了我们的方法和以前的方法之间的一般比较，这些方法也允许头部自由运动。除了使用本质上不同的数据集外，不同的方法也有特定的要求。例如，基于外观的方法需要个人校准，而基于模型的方法需要红外光源和摄像机。因此，我们不仅比较了他们报道的准确性，而且列出了他们的实验条件进行全面的比较。从表6中，我们得出以下观察结果