《Automated Spatial Calibration of HMD Systems with Unconstrained Eye-cameras》论文阅读-CSDN博客

本文链接：https://blog.csdn.net/weixin_42009267/article/details/100226534

标题：Automated Spatial Calibration of HMD Systems with Unconstrained Eye-cameras
作者：Alexander Plopski, Jason Orlosky, Yuta Itoh, Christian Nitschke
来源：IEEE 2016

摘要

正确校准光学透明头盔显示器(OST-HMD)并随着时间的推移保持一致的校准可能是一项非常具有挑战性的任务。自动化方法需要OST-HMD屏幕和用户不断变化的眼睛位置的精确模型，以正确地投影虚拟信息。虽然存在一些自动化方法，但它们通常都有限制，包括不能针对不同用户进行调整的固定眼睛摄像机。

为了解决这个问题，我们开发了一种方法，自动确定可调节的眼睛跟踪相机的位置及其相对于显示器的无约束位置。与需要在HMD和眼睛摄像机之间固定姿势的方法不同，我们的框架允许自动校准，即使在摄像机调整到特定个体的眼睛之后，甚至在HMD在用户脸上移动之后。使用固定在相机上的两组IR-LED和OST-HMD框架，我们可以实时计算出不同眼睛位置的正确投影，以及在几个帧内HMD位置的变化。为了验证我们的方法的准确性，我们通过校准多个不同的眼睛和相机位置，用商业HMD进行了两个实验。通过相机和HMD屏幕上的标记来测量地面真相，我们实现了5个不同实验参与者的眼睛1.66度的观察精度。

关键词：OST-HMD标定，眼位估计

1 介绍

在不久的将来，一些不同的OST-HMD，如微软的HoloLens，Meta 2，爱普生的Moverio BT-300和Magic Leap都有可能被推向市场。正确和一致的虚拟内容增强是必须的，以确保这些设备和相关的增强现实应用程序是成功的。要做到这一点，必须基于个人用户的眼睛位置、瞳孔间距离和不断变化的眼球运动来校准增强。一种精确的方法是手动校准用户对HMD坐标系的透视。
在这里插入图片描述

图1：(A)我们的HMD-Camera设置的图像，显示用户穿着带有可调节瞳孔-PRO红外跟踪摄像头的Brother AirScuter。(B)刚性连接到HMD框架的四个IR-LED(蓝色)和连接到相机的两个IR-LED(红色)的视图。(C)所有LED在角膜上的反射，其中红色和蓝色圆圈对应于b中的圆圈。

然而，这种手动过程固有的几个主要缺点，包括无法处理由于头部的HMD移动而引起的漂移，需要重新校准，以及耗时的初始校准。随后将眼睛跟踪方法引入到校准框架中，导致了一些处理这些问题的自动化方法。这为眼睛位置相对于显示器改变的问题提供了独特的解决方案。自动化方法侧重于这个问题的各个方面，例如HMD屏幕的空间建模和显示光学引起的内容失真。

尽管如此，一个主要的缺点仍然存在：自动校准方法假定眼睛跟踪相机刚性地连接到HMD。这种刚性附件防止显示器针对不同的用户和眼睛位置进行调整，以确保用户的眼睛仍然可见并且摄像机图像是清晰的。否则，估计的眼睛位置不能应用于HMD校准过程。这意味着需要对相机的显示器进行另一次手动校准，打破了这些方法的自动特性。理想情况下，应提供可调整或可移动的摄像机以适应用户。然而，尽管摄像机调整和HMD漂移，精确、自动校准和持续增强尚未实现。

作为迈向这一目标的一步，我们提出了一种被动角膜成像校准方法，允许相机调整和HMD随时间漂移。为此，我们构建了一个配备了可调节摄像头的OST-HMD，如图1(A)所示。这些设备还在HMD和相机上都嵌入了红外(IR)LED星座，以便自动恢复每个组件相对于彼此和眼睛的位置。我们主要贡献的摘要包括：

扩展眼睛姿势估计以使用5个或更多IR-LED(HMD上的3+和相机上的2+)恢复可调节相机和HMD的姿势，
一种实用的设计，可以与现有的商业设备和廉价的眼球跟踪器设置一起使用，以及
两个实验，包括使用模拟数据对该技术进行评估，以及使用商用OST-HMD进行评估。

2 相关工作

OST-HMD自动空间标定解决方案的设计借鉴了不同领域的研究成果。这些分为几个主要类别，包括OST-HMD标定、折反射相机系统和眼睛姿态估计。以下是对这些领域相关工作的回顾。

2.1 OST-HMD标定

OST-HMD空间标定确定HMD屏像素与入射灯盘的对准。这通常涉及对代表眼睛的摄像机相对于HMD帧的内在参数和姿态的估计。这种方法经过多年的简化[6]和扩展，也涵盖了立体视图设置。这种方法的缺点是要求用户手动将屏幕上的内容与现实世界对齐。

最近，更复杂的模型建议校准HMD屏幕的形状，如平面、弯曲或非参数化表面。Itoh和Klinker提出对依赖于眼睛位置的HMD的光传递函数进行建模。考虑到眼睛的表面，已经提出了自动化的OST-HMD校准方法。因此，通过严格校准到HMD框架的眼睛跟踪相机来估计眼睛位置。

2.2 折反射摄像系统

反射系统使用相机和镜子来观察从镜子表面反射的大视场。虽然透视相机具有单个视点，但折射系统要么具有单个视点，要么具有多个视点，分别称为中心系统或非中心系统。标定表示确定投影函数的任务，投影函数包括摄像机参数、镜面姿态和形状。折反射相机通常是具有刚性连接的抛物面反射镜的中心系统，以优化成像特性。最近，Agrawal等人提出了将相机从其在多个未知半径的球体或已知半径的单个球体中反射的单个图像校准到场景的方法。由于他们的方法同时估计许多参数，它们需要大量的通信，这些通信是已知的，并且具有很高的精确度。与此相比，角膜的形状类似于椭球体，建模为球面反射镜，这形成了一个非中心折射系统，需要通过眼睛姿态估计进行每帧校准。因此，角膜相机折射模型从折射成像理论中受益，然而，需要处理眼睛的个体和复杂本质。

启发我们方法的作品之一是Nitschke等人的作品。其描述了静态显示器的姿态估计以及从高达1米的距离朝向用户眼睛的高分辨率相机。我们的目标之一是帮助在OST-HMD的情况下验证这种方法，并开发一种可以实时使用的方法。然而，与近眼红外相机、虚拟屏幕平面以及近距离使用红外LED相关的问题与静态监视器和标记的问题不同。此外，我们使用单眼进行估计，而其他方法使用两只眼睛。由于HMD屏幕靠近面部，投影误差很容易导致不正确的放大。

图2：双球眼模型覆盖眼睛的解剖学横截面。眼球球体近似于巩膜的形状和角膜的角膜球体。

主要区别在于从虹膜轮廓的椭圆弱透视投影估计眼睛的姿势，并通过角膜成像恢复显示的反射。此外，前人已经在理想化条件下进行了测试，具有已知的地面真实和相应的反射，具有亚毫米和亚像素精度。在实际条件下达到这种程度的精确度还没有被证明。因此，我们的工作是第一个在实际条件下进行测试评估的工作，因此不能直接与以前工作中发现的值进行比较。

2.3 眼镜姿态估计

眼睛姿势估计方法恢复眼睛相对于相机的姿势。各自的姿势可以从眼睛的外观或眼睛特征的映射中学习。或者，可以通过应用预定的眼睛模型从虹膜的轮廓重建姿势，或者从已知3D点的角膜反射重建姿势。因此，使用至少2个已知3D点来恢复角膜的位置，随后对检测到的瞳孔轮廓或虹膜轮廓进行拟合以恢复眼睛的方向。

我们的方法类似于现有的方法，即从两个已知的IR-LED的反射中恢复角膜的位置，然后重建HMD姿势。

3 眼睛模型

多年来，人们开发了各种各样的眼睛模型。由于在眼睛分析应用中的简单性和它的建立，我们使用两球眼模型。双球模型(图2)将巩膜表面近似为球体E，将角膜表面近似为半径为7.8 mm的第二个较小球体C。较大球体E的中心是眼睛的旋转中心，通过E和C的光线(角膜的中心)是眼睛的光轴o。实际的注视方向，眼睛的视轴g，在节点处与光轴相交。结点的位置随着聚焦距离的变化而变化，但是它仍然保持在C的附近。因此，我们遵循C是眼睛投影中心的假设[7]。
图3：对于位于P的LED ，相应像素p的反投影b将与位于以rc为半径的角膜球C中的R处相交。仅当dTC是正确地沿着r向时，反射光线u才与P相交。

图3：对于位于P的LED，相应像素p的反投影b将与位于以r _C为半径的角膜球C中的R处相交。仅当d _TC是正确地沿着r向时，反射光线u才与P相交。

眼睛的表面显示不同程度的反射率。虽然巩膜大部分是弥漫的，具有强烈扭曲的反射，但是角膜被薄薄的反射层覆盖，这允许在其表面上进行清晰的反射，因此，能够检测到闪烁。虽然角膜的非球面随着距离顶点(光轴与角膜表面的交点)的距离而增加，但球面表示足以应用于这项工作。角膜的实际形状可以通过医学检查来恢复，例如用测温计，或者用专用算法重建。

4 HMD姿态估计

在本节中，我们将解释我们的解决方案，用于眼睛跟踪相机的自动空间重新校准。Agrawal等人提出的解决方案要求从球面反射出的场景的姿态至少有8个对应关系，在我们的例子中是LED反射。由于在HMD屏幕上布置足够数量的LED是有问题的，我们使用不同的方法。我们的方法包括两个步骤，首先估计角膜位置，然后恢复HMD姿势。在中已经探索了一种类似的方法，用于根据用户眼睛中屏幕内容的反射进行相机显示器校准。

4.1 角膜位置估计

在眼位估计方法中，特别是在基于瞳孔中心角膜反射(PCCR)的方法中，角膜位置估计是一种研究和应用得很好的方法。因此，需要至少两个已知的3D点及其在相机中的反射。在我们的例子中，这些已知的点是严格连接到照相机板上的LED。它们各自相对于相机的位置可以预先校准，并且即使用户调整相机的姿势也不会改变。在下面我们解释角膜位置的估计(给定一个已知的半径R_C)。

让LED的3D位置由P表示。来自LED的光反射到R中的角膜C的表面上，并投射到相机T中作为明亮的闪烁。可以假设检测到的闪烁的中心p对应于LED的中心。根据斯奈尔定律，P，R和T，摄像机T的位置，位于平面π中。平面π的法线可以描述为n=(R−T)×(P−T)=u×(P−T)，其中u是p的反投影。

由已知LED描述的平面π1和π2共同具有角膜C和T的中心。因此，从T朝向C的光线r可以被确定为平面π1和π2的交点，描述为r=n1×n2。我们可视化从图3中的摄像机位置T到C的距离d_TC估计的概念。对于给定的距离d_TC，反向投射光线u1与r1中的角膜相交，在那里它反射为v1。如果d_TC是从相机到角膜的正确距离，则光线v1应该与P1相交，因此
在这里插入图片描述

图4：该LED C 被重建为最接近多个反射光线v的点，由角膜的多次观察产生 C。

v1×(P1−R1) = 0

(1)

重构导致了具有2个虚解，2个负解和2个正解的DTC的6次多项式方程。消除不正确的结果，导致2个可能的距离。以同样的方式，可以获得第二LED的解决方案。结果是所有可能的解决方案的中位数，并且可以通过最小化重新投影误差来进一步细化。

估计的角膜位置C用于估计的第二部分，以重建连接到HMD框架的LED的3D位置。

4.2 HMD姿势

虽然可以从单个帧(例如，[2])恢复HMD的姿态，但多个帧减少了所需LED的数量，并提高了估计的鲁棒性。图4显示了我们从多帧重建HMD姿势的方法。

对于连接到HMD并位于L的LED，在相机图像中检测到相应的闪烁为l。从l向后投射的光线在R中的估计角膜上反射为射线v。给定n帧，反射的光线vi，i=1…N，应在L和等式中相交。1应该适用于所有帧。

对于帧i，等式1可以重新表达为A_iL−b_i=0的形式，其中A_iL为v_i×而b_i=v_i×R_i的矩阵表示法。可以通过逆运算从n个帧估计L。

L = (A ^TA) ⁻¹A ^Tb,

(2)

其中： A=[A ₁,A ₂...A _n], b=[b ₁,b ₂...b _n]

(3)

给定重构的LED ^TL与它们在HMD ^HL上的已知位置的匹配，将点 ^HL转换为 ^TL的变换 ^T_HT可以通过绝对方位估计来进行估算[9]。

这种变换可能包含一些误差，因为重建的3D点不一定满足LED相对于彼此的已知位置所施加的约束。在这里插入图片描述

图5：实验环境的图像，显示（a）具有标签的HMD和optitrack系统，以及（b）实验程序的侧视图。

我们通过最小化由定义的误差函数来进一步细化估计的变换。
在这里插入图片描述
其中 f 是重新投影函数，其首先将变换 ^T_HT 应用于给定点 ^HL_j，将变换后的点反射到帧i中的角膜上并将其投影到相机中，并且p_i,j是第i帧中第j个LED的对应闪烁的位置。

5 实验

简单地说，我们的实验目标是跟踪不同个体的眼睛和角膜反射，这些个体具有许多不同的相机和HMD位置。使用这些数据，我们重建了用户的眼睛和相对于相机的HMD。我们还使用从外到内的基于IR的跟踪系统(OptiTrack1)来跟踪HMD在环境中的位置，如图5所示。

设置标定

对于我们的实验，我们需要知道以下空间关系：

摄像机LED相对于眼动摄像机的位置，以及
HMD LED相对于HMD框架的位置。

为了确定LED相对于眼睛跟踪相机的位置，我们拍摄了放置在相机前面的半径为8 mm的镜球的多个图像。我们在高对比度背景下手动选择了镜球的轮廓，并重建了其3D位置，如[22]中所述。然后使用相同的方法恢复LED的位置，如公式(1)-(3)中所述。

为了获得独立于摄像机并且也可以用于评估我们的方法的地面真相，我们使用带有四个红外摄像机的OptiTrack跟踪器来跟踪IR标记集，其中几个被连接到提示工具和HMD。通过将尖端工具固定在LED上并向不同方向移动，我们获得了多个稳定的观察结果。这些也含有少量的噪音，这在实际使用中是可以预期的。将地面真实LED位置计算为所有测量的平均值。

5.2 模拟噪声先导试验

在进行主要实验之前，我们对带有模拟噪声的虚拟数据进行了评估，以验证我们的方法的潜在适用性。这也让我们了解了过程中每个部分的噪音可能如何影响结果。

因此，我们进行了一个模拟来评估不同的噪声水平如何影响估计的结果。模拟是根据眼睛模型设计的，角膜由半径为7.8 mm的球体表示。在模拟中使用的摄像机的内部参数以及LED的位置被设置为与在实际实验中获得的值相同。通过变换TG来描述显示器上LED的位置。然后将变换后的点反射到位于C的角膜上，并将其投影到相机中。因此，我们获得了与附着在相机上的LED相对应的像素pC，以及反射的HMD LED的投影的像素pH。

角膜位置估计的准确性已经在眼睛姿势估计以及OST-HMD校准的背景下进行了研究[18]。因此，我们调查了LED位置校准、LED闪烁检测、角膜位置估计以及最终错误估计的角膜半径中的误差如何影响估计的HMD姿态。

我们扰动所有像素值的误差为σ2={1，3，5}像素，具有噪声的LED的已知3D位置σ3={0，0.5，1，3}mm，以及角膜的位置误差σC={0，0.5，1，1.5}mm。对于每个误差，我们首先确定随机误差方向，然后将其缩放到误差大小。

我们观察到以下噪声组合：

LED位置无噪声，像素位置和角膜位置的噪声程度相似，
角膜位置无噪声，像素位置和LED位置的噪声程度相似，以及
适用于所有元素的相似误差程度。

如果不存在2D噪声，我们将忽略评估，因为估计的闪烁中心可能偏离实际中心。我们评估每个星座20次迭代，每次9帧。

我们将基本事实变换Tg={Rg，Tg}与估计的变换Te={Re，TE}进行比较，如下所示：

角度误差{α，β，γ}描述如下

R _z(γ)R _y(β)R _x(α) = R ^T _e R _g,

(5)

其中Rx(α)是绕x轴的旋转，Ry(β)是绕x轴的旋转，Rz(γ)是绕z轴的旋转。因此，轴对应于眼动摄像机T的坐标系。此外，我们还根据[12]AS确定变换T和T之间的均方根(RMS)误差

在这里插入图片描述
其中

I_4×4 是4×4单位矩阵，tr(A)是矩阵A的迹，O是原点，R是评价空间的半径。我们使用O=(0 0 0)^T和R=1m。

我们的模拟结果如表1所示。我们的结果表明，如果只存在很小程度的误差，估计就会成功。然而，中等和较大的误差水平显然会导致不正确的估计。基于这些误差，估计的LED位置和估计的角膜位置的准确性都将对结果产生类似的影响。

表1：平均旋转[deg]，平移和RMS误差[mm]取决于所应用的噪声程度。

在这里插入图片描述

5.3 初步试验

为了了解我们的校准在实践中的工作效果如何，我们创建了一个带有商用显示器的设置。设置如图5所示，规格如下：

Brother AirScouter（800×600像素）带有红外跟踪目标
4个HMD安装的960 nm红外LED
具有6个DoF可调节臂/平台的Pupil-labs相机
OptiTrack 4x相机跟踪系统

对我们的设置进行了评估，有5个参与者(参与者2个做了矫正眼科手术)和2个摄像机位置。为了简单起见，我们固定了相机的焦距，并要求用户握住HMD，以便在整个实验过程中眼睛保持大致聚焦。因此，用户用手支撑HMD，因此设置的移动和漂移都是允许的。首先将相机支架固定在其第一个位置，然后要求参与者将HMD屏幕上的10个点与环境中的IR标记对齐。所有参与者在HMD屏幕上的点数顺序和位置都是相同的。每次对齐后，记录以下信息：

目标相对于HMD（来自外部跟踪器）的位置，和
相机拍摄的眼睛图像。

在获取眼睛图像后，我们还用8 mm半径的镜球重建了LED。然后根据连接到相机的LED的校准位置来估计镜球的位置。然后使用重建的LED点来使用先前校准的LED位置来获得最佳近似姿态，这被假定为基本事实。

我们评估了估计的HMD姿态，类似于对模拟的评估。也就是说，我们确定了估计的均方根误差与从使用提示工具获得的LED的位置获得的姿态相比的均方根误差。

5.4 估计转换

每个会话的地面真实变换H TT被计算为从用镜球重构的点到用TIP工具重构的点的变换。对于每个参与者，我们根据等式计算eRMS。6.获得了α=3.42deg(stddev=1.45deg)，β=4.67deg(stddev=2.46deg)，γ=0.74deg(stddev=0.63deg)的平均误差。平移偏移量为7.38 mm(stddev=4.76 mm)，平均ERMS=69 mm(stddev=20 mm)。表2显示了每个参与者的V值。另外，我们调查了错误数量的增加如何影响结果。对于参与者3，其中一次会议由15个记录帧组成，其中只有前10个帧用于主要评估。

为了评估稳定性，我们从所有可用的帧中随机选择了10个I帧的组合，每个组合。然后将计算出的姿势与TG进行比较。我们在图6中显示了旋转误差的大小和平移偏移。误差在大约6帧后稳定，但是在整个间隔中可以观察到强烈的异常值。如果只使用2帧，估计在28%的观察病例中失败，因为光线在用户眼睛后面相交，而不是在前面。

表2：每个参与者的平均旋转[deg]，平移[mm]和RMS误差[mm]。

在这里插入图片描述
虽然估计的HMD姿态与地面真实情况并不完全一致，但它非常接近并优于我们在模拟中观察到的结果。此外，我们还研究了偏移如何影响HMD屏幕上的增强位置。为了评估估计屏幕姿势中的误差对AR体验的影响，我们从用户的角度计算了估计姿势之间的角度误差。由于我们假设HMD屏幕可以被建模为刚性连接到HMD的静态平面，因此确定IR-LED的角度偏移就足够了，因为这个误差将传播到HMD屏幕。对于每个记录的帧i，我们确定角度误差为

e _ang= acos((P _g−C _i) ^T(P _e−C _i)),

(8)

其中P_g是用镜球重建的LED，P_e是从用户的眼睛重建的LED的位置。平均误差仅为1.66°(stddev=0.86°)。请注意，此误差是根据HMD屏幕周围的LED计算得出的。因此，我们预计实际可观察到的误差将不会太明显。此外，我们没有排除记录帧中的任何帧，这对于排除角膜位置被错误估计的帧可能是有益的。

6 讨论

估计的HMD姿态的主要误差是沿z轴。因此，这很可能是对角膜大小的错误假设的结果。如[22]所示，错误估计的角膜半径将主要影响沿z轴的偏移，而反射光线的方向将不受影响。假设是这种情况，沿z轴的位移与角膜估计大小的误差成正比。相应地，反射光线的交点沿z轴位移。在我们的实验中也观察到了类似的行为。个性化的角膜大小估计可以改善结果，并允许更精确地估计正确的角膜位置。例如，可以为已知的HMD-照相机系统估计角膜的大小，并随后使用。或者，公式中的误差函数。4可以修改为还包括对角膜大小的估计，以便最小化总体误差。然而，这可能会降低对异常值和噪声的鲁棒性。

当前方法的两个限制包括要求必须一致可见的最小数量的LED，以及如果连接到相机的LED不可见，则无法估计HMD的姿态。进一步的限制是评估中使用的屏幕模型以及不完美的眼睛模型。然而，随着时间的推移，HMD姿势的精确重建也可以支持更详细的眼部模型的恢复。另一方面，如果已经重建了初始姿态，则可以使用漂移检测来重新估计屏幕的姿态。需要更多的测试来确定这样的估计有多容易出错。尽管我们使用IR-LED评估了该方法，但在自然光下拍摄的图像也可以通过角膜成像来利用，例如，通过用彩色LED替换IR-LED，并使用HMD屏幕上显示的内容与其在角膜上检测到的反射之间的匹配。

在这里插入图片描述

图6：（a）重建的HMD姿势之间的角度和（b）平移偏移取决于观察的数量。

7 结论

在本文中，我们提出了一种用于眼睛跟踪相机和OST-HMD系统的空间校准的自动化方法，该系统使用2个或更多刚性连接到相机的IR LED和HMD框架上的3个或更多IR LED。使用这种方法，我们可以通过PCCR准确地确定角膜的位置，并根据LED的相对位置来估计显示。我们达到了6.23°和7.38 mm的精度，从用户的角度来看，这导致了误差仅为1.66°。我们的方法显示了简化和实现自动OST-HMD校准和精确的眼睛注视跟踪的潜力，尽管相机移动和HMD漂移。这些结果还表明，从用户的角度来看，HMD的估计屏幕平面中的误差非常小。我们计划调查不同型号的HMD屏幕以及不同类型的HMD对结果的影响，例如通过比较可以建模为3D表面的Epson Moverio BT200和以无穷远呈现的AirSCouter。