虚拟现实中的眼动应用

最新推荐文章于 2024-05-26 09:35:53 发布

思影科技

最新推荐文章于 2024-05-26 09:35:53 发布

阅读量3.2k

点赞数 2

文章标签：深度学习机器学习

本文章主要介绍了在虚拟现实（VR）领域中的眼动追踪研究。VR是消费市场上出现的新兴技术，它能够为科学研究创造许多新的机会。它提供了一个高度沉浸和贴近现实的实验室环境。使用VR进行的实验是在高度受控的环境中进行的，可以收集到关于被试行为的更深层次的信息。眼动跟踪技术在一个多世纪前就被引入科学研究的，现在已经成为心理学实验中的一种成熟的技术，而且随着技术的发展，它变得越来越通用和廉价。结合眼动和VR这两种技术，可以在半真实的条件下对人类行为进行前所未有的监测和控制。本文将以一个案例研究为例，探讨在VR中进行眼动跟踪实验的方法和工具。在技术描述的同时，本文展示了这项技术的有效性，以及在VR中使用眼动跟踪可以获得什么样的结果。本文旨在引导读者在虚拟现实与眼动跟踪结合到实验的过程中，为新的实验激发灵感。本文发表在Journal of Eye Movement Research杂志。

引言

最近的技术进步推动了虚拟现实（VR）技术的快速发展。VR的发展一部分是来自于游戏厂商的推动，VR公司大量生产用于商业用途的虚拟现实套件，导致VR有越来越高的分辨率、刷新率和更广的视野范围。高性能显示器、显卡和其他计算机硬件使得以合理的价格生产功能强大的虚拟现实套件成为可能。这些技术的发展都使得虚拟现实成为一种极具价值和更容易使用的研究工具。

虚拟现实的优势在于能够良好地控制实验参数，同时还能让实验对象自由移动，并将其置于相对自然的环境中。被试可以通过移动头部看向各个方向，就像在现实世界中一样。在头部运动的同时，与被试位置相关的刺激位置可以被高精度地测量。事实上，整个身体的运动，如转向物体，甚至步行都可以实现。通过身体动作和提供给眼睛的图像的同步，可以达到主体与虚拟环境的高度沉浸程度。通过向感官提供有关环境的信息，被试获得了在非物理环境中的存在感，这有助于与人工创造的刺激进行更自然的互动。动作跟踪可以记录被试的所有动作。因此，行为可以在控制条件下进行跟踪，这些条件可以在多次试验中相同。被试对3D世界更直观的探索，以及被试运动与环境变化之间的对应关系，增加了实验范式的生态效度（越来越重要的概念）。因此，虚拟现实的发展与在较少人为条件下进行实验的努力是一致的，这被认为是真正理解认知过程的必要条件。

眼球追踪技术是一种成熟的技术，广泛应用于人类认知研究。它最早是在20世纪初使用的，当时使用的是一种带有指针的隐形眼镜。30年后，这项技术通过使用光束并将它们的反射记录在胶片上而得到优化。眼动研究的现代方法在20世纪60年代发展起来，并从那时起进一步完善。在过去的几年里，监测眼球运动的确切方法发生了很大的变化。今天，使用计算机视觉技术的基于视频的系统占主导地位。由于智能手机等设备的小型、高质量摄像头的发展，现在有可能拥有轻便方便的眼球追踪系统，甚至可以安装在VR头戴式设备或便携式眼镜中。这些技术可以快速准确地监测眼球运动，提供大量眼动数据。由于眼球运动与认知之间的密切关系，眼动跟踪在各种各样的实验装置中受到越来越多的关注。随着技术的进步和眼动跟踪领域的研究数量的增加，它现在已经发展到一种可以在各种各样的装置中很好地发挥作用，来研究人类的认知过程。

与经典的眼动相比，眼动在VR中的应用是本世纪初出现在研究领域的一个较新的、有前途的发展方向。它为人类感知和行为的研究开辟了许多新的可能性。它为研究人员提供了以前无法获得的工具。这些工具包括虚拟现实系统的全身运动跟踪，以及眼动仪的注视跟踪。当实验对象发现自己处于一个相对自然的环境中，对其动作和行为做出反应时，所有的实验参数都可以被专门控制。眼动跟踪和虚拟现实技术的结合使得计算被试在3D空间中的凝视成为可能，并观察被试在观看过程中看了哪里。与现实世界的眼动不同，VR眼动很容易在3D空间中定义兴趣区，并在时间上跟踪注视点来确定兴趣区被观察的时长。

本文将对VR中眼动跟踪的技术和实践方面进行介绍，旨在使其使用起来更广泛、更容易操作。本文将简要介绍这种新组合的方法，并详细描述如何在自己的实验室中建立和实现它。我们将研究该工具在研究环境中的使用场景，以及它的优点和潜在缺点。此外，我们还将描述可以收集哪些类型的数据。重点是使用带有运动跟踪器和内置眼动跟踪器的VR系统，因为这是收集数据的主要方法。有多种软件和硬件解决方案可以使用。没有任何一种软硬件是最优的。有一部分是根据我们的研究经验来指出哪些软硬件结合是比较好的选择，另外部分是因为这是一个蓬勃发展的行业，新的组合选项经常出现。工具和软件将以适当的方式提供。在阅读本文时，实现的一些技术方面可能已经发生了变化，或者变得更容易了。目的是为新的研究领域提供一个基本的介绍和可能的指导。这些信息应该有助于获得一个良好的开端，我们的样本数据可以向任何考虑用这一技术进行研究的人展示VR的巨大可能性，并为未来的实验激发新的想法。

方法实验装置的部件

一个完整的实验装置使用眼动跟踪虚拟现实包含许多部分。本文概述了典型设置的硬件和软件结合情况。

VR头戴设备

设备包括头戴式显示器(HMD)、运动跟踪器以及与虚拟世界交互的控制器(图1A)。一款高性能的VR设备通常包含由Oculus、Valve公司和HTC公司共同提供的组件。另一种可替代性选择的设备是Sony的PlayStation VR，这款设备允许你使用Unity开发运用程序。微软也为消费者提供消费级别的虚拟现实设备，这类设备允许你自己开发运用。也有一些简单廉价的解决方案，只需使用智能手机屏幕和纸盒即可。然而，由于较低的刷新率、较低的计算能力和没有现有的眼球追踪解决方案，这些都不是最适合研究的选择。

软件设计虚拟实验的常用工具有Unity、UnrealEngine或Vizard。前两种是免费的游戏引擎，而后一种更适合VR。Unity使用的是JavaScript and C#语言，Unreal使用的是C++并且自带可视化的脚本系统。Vizard使用的是Python。这三种软件都可以开发简单和复杂的3D环境，为不同的对象行为编写脚本，并提取有关主体行为的信息。

PC硬件

PC硬件在过去三十年中有了很大的发展，目前的VR应用适配了最新系统的计算能力。这就适用于渲染一个复杂的场景，有许多可能是动态的对象，详细的纹理或灯光变化。在VR环境中运行高帧率画面是很重要的，因为反应滞后和抖动很容易导致被试发晕。计算机通常充当眼动仪和虚拟现实硬件之间的接口，并收集有关被试行为的所有数据。

眼动仪

这些是专门为不同类型的头戴式设备设计的。目前能够提供HMD眼动仪的公司有瞳孔实验室(图1C)和Tobii。FOVE近年来也能提供一种能够内嵌在眼动仪中的HMD。

头戴设备

这减少了来自外部的干扰声音，并支持强大的沉浸感。当然，它们也可以用于特定的听觉实验。声音可以在3D空间中从不同的来源播放，因此音量可以根据被试转头的方式而变化(图1A)。

电缆管理

大多数VR设备都需要用多条电缆将HMD(以及眼动仪)与电脑连接起来。由于受试者通常在VR设置中移动，他们可能会被耳机的电缆缠住。这可以通过安装一个简单的电缆管理系统(图1B)来避免，因此我们强烈建议安装这个系统。一些供应商为HMDs提供无线解决方案，这可能是一个很好的替代方案。然而，大多数HMD眼动仪仍然需要一些电缆管理。

一次性卫生套

在消费场景中，VR设备面对的是个人客户。然而，在实验室环境中，许多人会使用同一个设备。头戴式设备软垫会接触到被试的脸，并且容易捂出汗。因此，为了让被试获得舒适的体验，需要增加卫生清洁程序，强烈建议使用设备时要在接触被试皮肤的地方套一个一次性套子。

图1 我们的HTC Vive设置。

(A)实验期间坐在转椅上的被试。在我们的实验中，通过控制器实现了在虚拟世界中的行走。(B)灵活的电缆管理系统，使电缆在会议期间不会缠在一起，不会妨碍被试。(C) HTC Vive设备内的瞳孔实验室眼球追踪器。

VR中的运动性头晕、疲劳等问题头晕通常是由视觉和前庭刺激之间的差异引起的。例如，在船上，晕船是因为眼睛看到稳定的景象，但前庭系统探测到运动。在VR中则会出现相反的效果。在VR中，当真实的人在大多数情况下静止地坐在椅子上时，眼睛会检测到场景的运动和玩家的明显运动。这种来自眼睛的输入和来自前庭系统的输入之间的差异是导致VR头晕的主要原因。而在这类实验中能够维持平衡是非常必要的条件，比如需要被试能够四处走动或使用更大、更复杂的场景，这样就比较困难。

为了避免头晕，最简单的方法是设计一个避免让被试走动的虚拟环境。在VR游戏中最常见的移动方式是传送，因为这种方式的动作减少了用户感觉的不匹配，只会导致轻微的头晕。然而，这不是一种用于消除由运动方式带来的研究问题的最自然的选择。另一种方法是让被试在现实世界的跑步机上行走，这样他们感知到的运动就能与VR中看到的运动相匹配。然而，这很难实现，特别是当主体可以自由地向各个方向移动时。一个解决方案可以是使用全方位跑步机，但这项技术还不是很发达，相当昂贵。作为一种替代方案，有可能让被试坐在转椅上自由旋转，以省略现实空间中的平移运动。总之，在VR中，有关运动选择的最佳方案主要取决于实验和所要探讨的问题的类型。此外，目前在这个领域有很大的进展，出现了更多新的想法来防止头晕的频繁出现。

除了在VR中优化所需的动作外，调整3D环境和实验设置的细节也有助于减少头晕。VR中的被试比看传统显示器时对微小的干扰更敏感，因为他们对现实有更高的期望。例如，电脑游戏可能有50ms或更高的潜伏期，但在VR中，超过15-20ms的潜伏期就已经会导致严重的头晕和恶心。这是因为VR中的被试在虚拟世界中依然遵循与现实世界相同的规则。因此，如果被试转头，虚拟世界的转动哪怕有一点点延迟，都会形成干扰，并引发不适。除了延迟，不同的帧率也会让人感到恶心。因此，作为一名VR实验开发者，在决定实验场景的复杂性时应该牢记帧率问题。

除了头晕外，对大多数被试来说，长时间戴着设备也会非常累。因为它有点重，它会把被试的头部向前拉，有人会抱怨颈部疼痛或鼻子受压。此外，在炎热的夏天，它会捂得非常热，让被试容易出汗。为了能够让被试感到舒服一点最好是把空调开足。VR的另一个挑战是收敛和焦点之间的差异(图2)。这被称为焦点-适应-冲突。在现实世界中，我们的大脑从辐散和眼睛晶状体的焦点接收深度信息。相反，在VR中，我们只接收到关于收敛的信息。由于虚拟场景只能在固定距离的单一平面上呈现，即HMD显示器，因此无法从镜头的焦点中提取出任何深度信息。对于大多数人来说，这并不是一个大问题，但是有些人则不能单独从收敛中提取很多深度信息，因此他们的3D体验较弱。它还会导致眼睛疲劳。额外缺乏焦点模糊会导致虚拟环境中物体的大小和距离产生不同的感知。因此，目前的技术仍可能限制VR在晕车和疲劳方面的可用性。然而，要改善这些缺点还有很多工作要做。现有的研究已经提出了一些解决方案，如基于眼球追踪的foveated渲染，包括焦点模糊。

图2 (左)真实世界:收敛=焦距。(右)在VR中，焦距始终保持不变。

在VR中的眼动仪校准和验证

在进行眼动测量时，校准和验证是确保准确性的常用方法。在这两个过程中，被试都会被告知要注视出现在在屏幕上不同位置的目标点。在校准的过程中，眼动仪使用这些目标点作为计算和调整被试注视位置的参照点。在验证过程中，眼动仪返回的坐标与目标实际坐标之间的视角被计算出来，并提供校准的质量度量。根据我们的经验，眼球追踪的精度会因为漂移而慢慢下降，例如在VR实验中，被试头上的头戴设备会轻微滑动。因此，在实验过程中每5 - 10分钟重复这两个步骤是有意义的。有连续重新校准的方法可用。然而，VR中使用了关于被试观察行为的其他信息，例如由于高度显著的刺激、场景中的移动或由于执行鼠标点击，它们会干扰实验设置，并仅限于特殊情况。因此，在VR实验中，经常需要反复校准，以抵消设备可能的滑动带来的误差，并确保准确的眼动数据的准确性。在执行校准或验证程序时，重要的部分是在屏幕空间而不是立体空间中显示注视点。这使得它们与被试的头部一起移动，因此不可能将头部转向边缘的目标，从而将这些目标映射到视野的中心。这确保了所有目标都显示在预定的位置，并覆盖了整个视野。此外，由于周边部分在VR中有效分辨率较低，所以主要在视野中心进行验证是有意义的。这有助于被试在VR环境中将头部转向他想要看的物体，而不是将眼睛移动到周围的位置。这样能够确保在中央凹部分的视野有更高的准确性。

眼动仪与VR的结合

为了找出被试在3D空间中看向哪里，需要计算从被试眼睛到它所看向的方向的3D注视向量。当使用3D眼睛模型进行瞳孔检测时，眼球追踪器已经可以确定一个3D注视点。通过计算两眼注视点的交叉点，从理论上可以从两眼的发散程度计算深度。然而，这种计算是不精确的，并且只能在最完美的校准下返回可接受的结果。因此，相对于两眼间距离，在距离较大时，估计眼睛到注视对象的相对深度时需要一定程度的精度。由于这种精度很难跟上目前眼球追踪技术的精度，我们必须使用更可靠的方法进行深度计算。已经证明，使用多种特征来回归凝视深度可以改善结果(Weier, Roth, Hinkenjann，&amp,2018 b)。在这里，我们提出了一种更简单的方法，它利用了虚拟世界中所有物体的确切位置，并且利用凝视深度通常在到达一个表面时停止这一特点来计算深度。

在VR中，我们的优势在于拥有3D眼睛模型，以及眼睛与物体之间距离的完整知识。这使得在3D空间中简单地计算凝视点的深度成为可能。与眼动仪的误差相比，被注视物体的空间范围较大，这为误差修正提供了良好的结果。为了将眼球追踪数据与VR环境相结合，我们需要在虚拟世界中将二维的注视位置转换为三维向量。对于这种方法，我们从两眼的二维标准化眼位置开始。然后，这个2D位置可以根据头部位置和世界坐标的旋转情况转换为对虚拟世界的3D凝视。通过这种3D凝视，人们可以计算被试的上一个和下一个凝视与虚拟世界中物体的交叉点的差别来获取深度信息。在游戏引擎中计算3D凝视矢量相对容易。它可以单独对每只眼睛进行，也可以使用单眼姿势。在这种情况下，我们通过计算两只眼睛的平均值来达到单眼计算的目的。

接下来，我们需要根据被试眼睛的水平和垂直坐标计算凝视矢量。这必须根据受试者的位置和头部朝向来完成。在VR中，头部可以沿3个轴旋转，并在一定半径内移动，因此很难计算。这个问题的一个简单解决方案是创建被试的子对象。物体的位置将在一个相对于物理头部的坐标系内变化。这个参考对象将根据眼睛的运动和头部的运动在它的副坐标系统内移动。也就是说，如果玩家向右看，物体就会随着玩家头部的位置和旋转向右移动。当现在绘制一个从头部位置到虚拟世界坐标系统内这个参考对象位置的矢量时，矢量表示3D中的凝视(见图3)。这个向量就是被试的凝视向量，也可以被标准化以简化。凝视向量可以简单地通过从参考点的位置减去头部的位置得到。通过这个过程，可以将2D凝视坐标转换为游戏引擎中的3D凝视矢量。

图3 在Unity内部的光线投射(黄色)显示了玩家的凝视的路径，与物体的hit point是被试第一次看到目标物体（发射的光线顺着被试的视角碰触到目标物体），被试和目标的距离通过计算参考物来实现。

兴趣区的定义

在计算完凝视矢量后，下一步是确定被试是否在看一个特定的物体或兴趣区。到目前为止，凝视矢量只提供了一个方向。要计算眼睛到所看物体的距离，需要确定这个矢量和虚拟世界中的物体之间的交点。为了达到这个目的，我们可以使用Unity或Unreal Engine等游戏开发软件中的光线投射系统。它的工作方式可以想象为从一个原点向一个方向发射一束看不见的射线。这条射线会检测它何时击中一个对象，并返回关于命中点和它击中的对象的信息。在我们的例子中，我们会从被试的头部位置向我们的视线方向发射射线。从这条射线中，我们可以提取出与它相交的第一个物体的信息。一个可以被射线探测到的物体需要有一个对撞机。通过这种方式，可以定义兴趣区 (ROI)。对撞机的大小和形状也决定了ROI的大小和形状。每当光线与ROI周围的对撞机相交时，我们便会提取与对撞机相连的对象的名称以及射线到命中点的长度(游戏邦注:即玩家眼睛到该对象的距离)。如果有必要在3D环境中设置不标记ROI的对撞机，但只是出于物理目的，不应该借助光线投射进行记录，那么就可以使用标签来区分两种对撞机。例如，可以为每个ROI创建一个标签，然后只记录有标签的碰撞器的注视向量的交叉点。然后，从光线投射中提取的信息可以以与注视向量记录相同的帧率保存。

提取注视向量和第一个击中点的交点需要计算能力，这可能会减慢VR应用的速度。因此，我们建议在会话结束后进行离线操作，以避免不必要的计算减慢VR应用程序的速度。在这一点上，有必要整理出那些眼动仪给出的置信度较低的数据点。这些数据要么是被试闭眼时的数据点，要么是眼动仪无法识别瞳孔时的数据点。只要眼动仪的精度足以区分不同深度的典型物体上的注视，该方法就产生了可靠的注视向量长度的深度数据。

需要注意的几点内容

不同的软件通常使用不同的坐标系。将眼球追踪软件的数据与3D引擎的数据相结合，并使用另一种软件分析这些数据，这就使得注意这些形式上的差异变得非常重要。通常，程序之间的x、y和z并不代表相同的维度。在离线分析数据时，也需要考虑到这一点。另一个转换问题是2D平面上的原点可以在一个角落或平面的中间。例如，瞳孔实验室使用归一化的坐标系，原点0,0在左下，1,1在右上，而Unity的原点在平面的中心。为了得到有效的结果，有必要仔细对待不同步骤的参考框架，并在文档中明确说明供以后的用户使用。

另一个问题是不同应用程序之间的帧率差异。运行VR应用程序的游戏引擎通常比眼球追踪器的帧率低。3D应用程序中的帧率也可以根据视线范围内的对象而变化。当观察一个非常复杂的物体时，它会突然下降，而当观察一个简单的物体时，它会飙升。增加和稳定帧率的解决方案，如凹坑渲染正在开发中，预计很快就可以使用。在大型沉浸式3D环境中，即使是强大的硬件，帧率下降是难以避免的。当计划获取详细的热力图或其他需要高眼动帧率的信息时，应该考虑这个因素。一般来说，在高帧率的情况下收集数据是非常困难的。如果这是需要的，你应该设计一个非常简单、低多边形的3D场景，没有灯光变化或其他效果，以减少计算的复杂性，从而确保记录能够记录到高帧率数据。瞳孔实验室提供时间戳来记录外部高帧率的眼球运动。这样就可以在VR环境中同步用户的动作。然而，在你的应用程序中保持高帧率是可取的，以便稍后与高频瞳孔记录同步。否则，由于不同步和帧内插，会导致三维凝视矢量精度下降。如果可以满足所提出的问题，在低帧率下记录注视向量可以是一种保证稳定和完整记录的解决方案。然而，如果人们对精确定义的注视或扫视动态感兴趣，就需要解决眼动跟踪的同步和更高采样率的问题。一般来说，我们应该总是瞄准一个高且相对恒定的帧率，以使眼动追踪器和VR引擎之间的同步更容易且更准确。在VR中，注视不像在注视静态2D场景时的眼球追踪那样明确。需要建立一个明确的方法来区分固定与平滑追求或视动性眼球震颤。需要记住的是，在3D环境下的眼动追踪，如注视和扫视等已确立的概念不再像在2D屏幕前那样明确。然而，最近的研究已经在解决这一问题上做出了首次尝试。在规划数据分析时，应考虑到这些与传统2D屏幕眼动研究的差异。

作为一种应用实例的预实验

在下一节中，我们将介绍我们在虚拟城市的试点研究中收集的程序和数据。这是我们实验室进行的一项调查现实世界中关于房屋和街道的空间信息编码的后续研究。在各自的研究中，被试执行各种任务，包括他们家乡的房子和街道的照片，即奥斯纳布吕克，作为刺激物。然而，被试对刺激的熟悉程度只能在事后主观地评估。因此，我们进行了第二轮实验，设计一个虚拟城市，包括30分钟的探索。通过这种方式，我们可以控制和监测被试的探索行为，客观地评估他们对不同刺激的熟悉程度。在初步研究中，我们关注了在虚拟现实中探索城市时被试的视觉行为。调查研究对象在探索虚拟城市时所看的地方，可以扩大可用数据的范围，以了解他们的导航行为。空间知识是随着熟悉程度的提高而提高的，因此对空间知识的熟悉程度有一个更客观的衡量标准是非常重要的。以下完整的研究正在进行中，并将单独报告。

预实验

据报道，调查空间知识获取的研究包括30分钟的虚拟现实训练课程，在此期间，参与者自由探索名为Seahaven的城市。这个虚拟城市被设计成最适合原始研究任务的方式(König et al.， 2017)。这意味着它不包括高地标性建筑，也不像曼哈顿那样以规则的网格结构建造。此外，这些房子展示了各种各样的风格，而且看起来很容易区别开来，因为它们在整个研究的训练后任务中充当了刺激因素。总体而言，这座城市有214栋房屋，分布在一个复杂的城市布局中。虚拟现实环境还包括一个移动的太阳，以提供自然照明条件和估计基本方向的手段。

在我们的初步研究中，我们记录了31名被试的数据，其中两名被试出现了头晕，无法完成实验。在两次实验期间，由于技术上的难题导致数据集不完整。因此，剩下的27名被试(11名女性，16名男性)，平均年龄24.2岁的数据列了出来。由于这些是预测量，我们在测量前10个被试时改变了3D环境的次要方面，以改善设计。这包括添加丢失的碰撞器，修复错位的物体或不相交的人行道，调整看起来太大/太小的房子，调整太阳和玩家形象。由于这些变化，我们不会将我们的数据作为空间导航的实际结果呈现。然而，由于这些变化性质轻微，我们不期望对结果有任何相关影响。在本文中，我们反而使用我们的数据作为虚拟现实实验的例子，并演示眼动数据的使用。

图4 海港-被海洋包围，被试被迫留在城市。许多不同的房子和街道可以探索。

实验环节的结构

在实验开始前，被试会收到一份实验介绍，并要求被试签署书面知情同意书。还向被试解释了VR的工作机制以及可能出现的头晕现象。头戴设备戴在在被试的头上，主试会调整被试的瞳孔间的距离，然后进行眼动跟踪校准，被试先适应VR中的小区域中的活动。一旦被试适应了VR的3D场景，他或她将被安置在虚拟现实城市Seahaven中，并在该镇内自由探索30分钟。在实验结束时，被试通过转向固定的方向来主观地估计北方。然后，实验被终止。接下来是一个简短的任务，我们向受试者展示了位于VR城市中的50所房子的图片。这些房子是随机选择的，平均分布在城市各处。所有被试者随机看到了50所相同的房子，并对每张图片进行两种评价(图5)。第一种评价是“我能很好地记住这所房子的景象”，我们称之为熟悉度评价。第二种说法是“我有信心找到回到这所房子的路”，我们称之为导航评级。评分方式为从“完全不同意”(1)到“非常同意”(5)的李克特计分。作答时间没有限制。任务完成后，被试填写了一份关于其在虚拟现实中的体验的简短问卷。作为一种奖励，被试要么得到一笔金钱补偿，要么得到一个研究项目所需的学分。每次实验持续约一小时。

图5 设计任务。

每张图片都有两种说法。这里显示了熟悉度评级。在回答之后，同样的图片再次显示在导航问题中。

设备

在我们的研究中，我们使用HTC Vive头戴式设备，其中两个基站用于运动跟踪，一个控制器用于虚拟世界中的运动(图1A, B)。我们的眼动仪是瞳孔实验室的HMD眼动仪(图1C)。眼球追踪器是专为HTC Vive设计的，可以很容易地安装在头戴显示器上。我们通过IPC主干将信息从Unity发送到student Service。在我们的GitHub库中可以找到我们的瞳孔捕获和Unity之间的通信解决方案的代码。图6显示了我们研究中使用的校准和验证点的分布。为了确保眼动仪在整个视野(即校准点之间的区域)具有良好的精度，我们将校准时的注视点显示在与验证时不同的位置。通过这些措施，眼动仪的精度通常可以达到1.5°或更高。在实验过程中，我们只使用总体平均值进行验证，并决定被试是否被校准得足够好(如果平均精度低于2°，则无法进行测量)。事后分析表明，中心点的精度平均高于外围点。然而，除去中心点，验证的平均准确率通常仍然保持在1.5度以下。开发软件使用的是Unity。数据分析软件用的是Unity和MATLAB。

图6 用于校准(黑色)和验证(蓝色)的点。注视点每次显示在其中一个位置。

Seahaven的单元

以一种直观的方式对虚拟城市的所有对象进行缩放是很重要的，这样才能让对象对他或她正在探索的虚拟城市有一个自然的印象。由于Seahaven包含了来自不同来源的不同风格和大小的各种类型的房子，我们努力将所有模型缩放到自然比例。我们调整了Seahaven中的所有内容，使其在现实世界中大约1米的距离就像一个Unity单元。图7显示了标准大小的块，直观地展示了缩放的情况。玩家看不到的玩家自身大约有两米高(图7B)。一单位与一米的近似对应关系后来可以用来解释结果。

图7 Unity中的大小关系。

(A) 10x2x1 Units立方体。

(B)公共汽车站旁的1x2x1单位立方体。这也是玩家的大小

基本变量的记录

为了提取被试的视觉行为信息，需要在预设的时间间隔内检查基本变量。我们将数据提取放入固定帧率的循环中，并将数据与时间戳一起保存。在这个固定的帧率下，我们可以检查某些信息并保存它，例如注视方向和玩家的位置。

为了对熟悉程度进行客观评估，我们收集了每个被试在探索虚拟城市时查看每栋房子的时间信息。我们感兴趣的是被观察的特定房子以及它与之后任务的关系。我们一秒钟重复检查该信息30次，并存储结果以供以后分析。用同样的方法，我们还保存了被试的其他信息，如头部方向和位置。

探索行为的测量与可视化

首先，我们很有兴趣看看我们的研究对象在虚拟城市中自由探索的时候都在哪里。因此，我们通过在地图上显示被试的行走路径来可视化受试者的导航行为。在图8A中，我们展示了一个被试在30分钟的实验任务中所走过的路径。图8B展示了所有被试的步行路径，展示了对整个城市的均匀覆盖。图8C显示了城市不同区域的被试数量，也显示了Seahaven的平均覆盖范围。因此，我们可以得出结论，在30分钟的自由探索时间内，虚拟城市的大部分都被访问了。

图8 (A) 30分钟内单个被试行走路径图。(B) 27名被试步行路径图。(C)参观城市某一地区的被试数量。

作为第二步，我们想要评估在探索期间有多少房子被看了。记录的眼球追踪数据显示，在30分钟的时间里，平均看到177.9座房子，相当于83%的城市。在27名被试中，平均有22.5人看了某栋房子。超过一半的被试看到了97%的房子。总之，我们的结果表明，房屋在被试中分布均匀。为了计算人们对一所房子的熟悉程度，我们调查了人们看一所房子的时间。结果显示，一栋房子平均被盯了5.53秒。一项关于最多和最少被观看的房屋(总体居住时间)的调查显示，更大的住宅建筑群和更特别的独立房屋比沿街道排列的普通房屋被观看的时间更长。通过提取每个记录的时间戳，我们得到了一个时间轴，表示在哪个时间点看到了哪个对象。图9显示了一个被试的时间轴的摘录，每个房子都有堆叠的水平时间轴。黄色的方块代表了各个房子被注视的时间。房子通常会在一定的时间间隔内观察，其间会有一些短暂的跳跃。作为熟悉程度的衡量标准，我们使用了从观景房屋的时间轴中提取的单个房屋的注视时间。

图9 摘自一个完整实验的时间表。代表x轴上的房子(名字是001到200之间的数字，以0、3或6为单位旋转)。

黄色的方块代表某所房子被观察的时间跨度。橙色箭头指向地图上的房子。

接下来，可视化被试在3D环境中的观看行为(图10)。我们使用光线投射技术计算凝视向量，并在虚拟环境中用彩色球体标记每个点。在此过程中，同时提取被观察对象的信息。为了可视化效果更好，我们根据被试观察这个特定点的距离对球体进行了颜色编码(远-近 = 红-蓝)。需要注意的是，图10所示的图像并不对应于被试观看标记的球体时的视角。这意味着，如果你在同一个物体上看到很多不同颜色的球体，就像右边的图10，这个物体从很远的地方看这个物体，然后靠近它看(或者反之亦然)。由于球体在3D模型中可视化，我们现在可以在这个模型中四处走动，探索对象的目光。因为我们只在每个房子中使用一些盒子对撞机来提高应用程序的性能，所以一些集中点并不完全对应于物体的形状。例如，这可以在右侧图片中两个AD面板之间的空白区域中看到。然而，在3D环境中直接标记视觉击中点，为探索虚拟城市Seahaven提供了一种方便、灵活的方式来可视化和研究对象的观看行为。

图10 视觉化的注视点（来自一个被试）。球体代表凝视矢量的集中点。

根据在测试过程中观察它的距离进行颜色编码(远-近=红-蓝)

眼动数据与其他变量的相关关系分析

当你开始分析你的眼动数据与实验中记录的其他数据的关系时，VR中眼动跟踪的优势就显而易见了。这些数据可能是被试的位置或旋转、行走速度、在VR环境中的动作或在VR内部或外部的任务中的表现或主观评价。在下一节中，我们将以我们的研究为例，展示一系列这样的分析。

查看房屋与任务表现的相关性

之前的研究通过执行空间任务后的主观熟悉度评估刺激的熟悉度，例如Osnabrück的房子。然而，客观地评估受试者实际访问各自地点的频率是不可能的。在VR中，我们可以将观看特定房屋的总时间的客观测量值作为客观熟悉度测量值，并将其与主观熟悉度测量值联系起来。因此，在我们的试点研究中，被试必须评估熟悉度问题(“我能很好地记得这所房子的景象。”)。回答的范围从1到5，1代表“完全不同意”，5代表“非常同意”。所有被试的平均评分为2.81。观看时长与主观熟悉度的相关系数为0.293。用同样的程序，我们计算了一个关于空间导航的问题(“我有信心我可以找到这个房子”)的回答的平均值。在这里，被试的总体平均得分为2.46。导航等级与观看时长之间的相关性为0.316。图11显示了每个房子和对象的观看时间分布，它们分别根据对它的熟悉程度打分。总体结果支持了我们的预期，即对房子的主观熟悉度评分会随着观察时间的增加而增加。然而，相关性低于我们的预期。

图11 那些被观察时间较长的房子总体上有更高的熟悉度(以及导航，不是描述的)评级。

接下来，我们调查了与房子之间的距离是否会影响被试对它的熟悉程度(图12)。我们没有发现熟悉度和观看距离之间有很强的相关性(相关系数为-0.047)。此外，导航评级与平均观看距离没有相关性(相关性为-0.056)。与房子之间的距离差异似乎也不会影响评分。

图12 (上)距离房屋的平均距离；(下)距离的平均方差。

浏览点的空间分布

虚拟现实的设置可以确定整个观测点的三维分布。在大多数实验室实验中，使用二维视觉刺激或固定位置投影到二维平面上。相反，在VR中，我们可以获得真实的3D信息，并可以使用3D热图构建一个观察点的3D分布来可视化注视运动。收集眼球追踪数据后生成二维热图以确定空间偏差是目前的普遍做法。使用VR，我们现在还可以观察3D空间的偏差，在2D平面上增加距离。被试观察物体的距离将成为我们绘制3D热图的第三个维度，并能进一步了解3D环境的视觉覆盖情况。

图13显示了单个被试的3D空间分布示例。为了在小距离上增加分辨率，我们绘制了凝视点的分布，作为距离的自然对数的函数ln(160) ≈5.0的距离值表示虚拟世界中的远剪切平面，这是被试可以看到的最远距离。在剪切平面后面显示的点平面表示没有落在任何物体的凝视，例如，凝视天空。从图中可以看出，被试在中等距离(约23单位(~23米))时，最常直视前方。

这个3D热图包括了观察者和环境的属性。具体来说，用户与房屋之间距离的统计数据可能发挥了作用。为了调整环境的属性，我们使用了两种不同的随机化方法。首先，我们将原始的注视向量打乱，并将其随机分配到用户记录的位置。这意味着游戏开始时的凝视矢量可以用于游戏结束时的位置，并击中不同距离的不同物体。结果的热图看起来与原始热图相似，最大密度在ln(14)=2.6。在水平和垂直维度上，数据点是相同的，因为我们使用了来自该受试者的原始凝视向量。打乱在距离轴上给每个点分配新的值。当从原始热图中减去随机数据时，我们可以看到，原始值点在更远的距离上的点密度比由平移注视产生的值点要高(图14)。这表明被试会系统地观察更远的物体。请注意，这与传统实验室条件下3D显示器显示静态图像的结果相反。这强调了在自然条件下研究行为的重要性。

图13 一个被试的3D热图。

点的颜色是根据一个点的近邻的数量来着色的，从而编码在这个区域的点的密度(黄色=高密度；蓝色=低密度)。近距轴显示Log(距离)。(上)原始凝视显示集中在视野中心在中等距离。在ln(23)处的最大密度=3.1。(下图)在x和y平面上随机分布的凝视向量显示了VR环境的内在属性。

图14 法向热图-由注视向量产生的集中点热图(一个被试)。它显示出对更大距离的系统性偏差。

在第二个控制中，我们随机地用一个平坦的概率函数创建新的注视向量，并将它们应用到被试记录的位置上。当您查看距离轴时，您会看到一个曲线形状的图案和最远处的平面(图13，底部)。在远剪切平面上的点的累积代表了所有凝视天空的目光，或者是遥远到物体不再显示在显示器上的距离。曲线形状的图案能将落在地面上的目光可视化。目光往下看得越远，就越早落到地面，因此在热图上显示的距离也就越短。它看起来与从原始凝视矢量创建的热图非常不同，并且更多地反映了3D世界的属性。这表明，没有任何随机化的原始热图显示了实际的观看行为，而不仅仅是其环境的产物。

2D凝视可视化与分析

在许多虚拟现实的观察过程中容易出现的问题是，当被试转头时，他或她的凝视是否不同。有各种各样的方式来看待一个被试的二维凝视与其他兴趣参数之间的相关。在我们的研究中，我们感兴趣的是眼球运动，它与虚拟环境中的不同身体运动相关。为此，我们将记录的眼睛位置分为三组：眼睛的位置在10帧的时间窗口周围右转超过20度；在10帧的时间窗口内，眼睛的位置左转20度以上；在所有其他帧中，被试旋转不超过20度的眼睛位置。当绘制这三个类时，我们看到左右的转向通常伴随着各自方向的注视(图15)。因此，对于这些大的头部或身体的转向角度，协同探索性眼球运动主导于代偿性稳定眼球运动。

此外，我们检查了行走时的眼球运动与站立时的眼球运动(图16A, B)。图16A表明，站立时的凝视(橙色)比行走时的凝视在中心有更高的集中度。当用站立状态的热力图减去行走时的热力图同样也能够看出这一现象（图16B）。这说明在给定的实验条件下，当被试行走时，对环境有更强烈的视觉探索。然而，这也可能是被试在虚拟世界中导航的方式产生的副作用。由于被试的行走方向是由耳机的方向决定的，行走过程中头部的运动会使被试更难沿着预期的方向行走。这可能会让被试在走路时更多地利用眼部周边的运动，而不是移动头部。站着的时候，被试可以简单地转动头部，更多地看HMD屏幕的中心。

图15 样本中两组被试数据。

(A)被试不转向时凝视的热图。(B)当被试右转20度时，在10帧时间窗口内凝视。(C)在被试左转20度时，在10帧时间窗口内凝视。

图16 走路时凝视与站立时凝视的对比。

(A)两种凝视类别(橙色-行走，蓝色-站立)的散点图。(B)(站立时凝视)(行走时凝视)热图。

讨论

在这篇文章中描述和讨论了一种在VR环境中追踪眼动数据的研究方法。这种技术主要是通过使用基本的几何计算完成的，即首先根据二维瞳孔位置构建一个3D凝视矢量，然后将这个矢量与3D世界中的物体相交。我们还提出了分析建议，可以应用于记录的数据，以及技术实施的一些细节和可能的问题来源。现在，我们将进一步深入讨论这项技术，特别是它所带来的限制和可能性。

VR的局限性以及潜能

在VR城市的发展和后续的预研究中，我们得出结论，VR是一个非常强大的研究工具。它提供了大量有价值的数据，同时很好地模拟了现实世界，并给了被试相对自由移动的可能性。虚拟环境比通常的实验室环境更接近自然条件，比在现实世界中进行的研究更可控。这使得它成为一个非常有价值的工具来探索空间导航领域和许多其他领域的广泛问题。可以选择以合理的精度跟踪被试的身体运动和眼球运动，这为研究人员提供了大量有关被试在虚拟环境中的行为的信息。这使得分析被试的行为与他们所看的东西的关系以及分析被试所看的地方与他们的行为的关系成为可能。以这样一种精确而简单的方式来研究肢体动作和注视动作的相互作用，为回答许多新问题提供了可能。此外，3D热图的创建作为一个有价值的工具，用于调查观察行为的演示。在3D模型中可视化凝视模式的可能性也可以成为展示研究或构建新假设的有用工具。还有更多的方法来使用VR和眼球追踪的结合为你的优势。我们看到了这项新技术的巨大潜力，以及它促进未来研究的许多机会。

然而，也存在一些局限性。目前的主要问题是人们在VR中会有头晕的倾向。在我们的研究中，31名被试中有12人在问卷调查中报告说，他们在游戏过程中感到轻微的头晕不适。另外，有两名参与者因为这个原因中断了实验。在问卷调查中，只有6名被试表示，他们经常在汽车或其他车辆中晕车。较高比例的头晕现象导致很多实验无法持续30分钟以上，只能中途进行休息。头晕还会阻碍被试全身心地参与探索活动(或任何其他任务)，因为他们的注意力将集中在控制头晕或恶心上。此外，头晕会导致一种适应性的导航行为，比如，走路变慢，走路时不转头，停下来看看四周，或者长时间只看一个物体，以对抗晕车。所有这些经历过头晕的被试的适应性都阻碍了我们分析他们自然导航行为的能力。

这个问题的一个可能的解决方案是将实验任务分割成更短的时间小段。例如，每次10分钟，中间有两次休息，而不是一次持续30分钟。另一种应对方法是在虚拟环境中寻找一种更自然的移动方式。这将同时解决两个问题。它将减少头晕，并使模拟条件更接近自然条件。为了在探索我们的虚拟城市时保持连续的运动，被试坐在可旋转的椅子上，只有通过拇指操作控制器和旋转椅子来影响他们的运动。这与自然运动不同，它对导航行为的影响程度尚不清楚。例如，它使人们可以横向或向后行走，这是一种不同寻常的现象。此外，走路的方向受头部方向的影响，朝一个方向看另一个方向需要一些训练和协调。然而，目前在VR中很难找到一种更自然、不会引起头晕的移动方式。像传送等游戏中使用的解决方法对于许多研究问题来说并不可行。 给被试一个主动的任务也会有所帮助，这样可以分散头晕的注意力。这是几名被试提出的建议，他们报告说，在没有任务的情况下，他们有很多时间来注意自己的感觉，并比他们在有任务的情况下更容易注意到头晕。然而，找到一个不干扰实验主要目的的好任务是困难的。因为每个任务都会影响主体的导航行为，所以将其添加到会话设置中是有问题的。另一方面，自然导航行为通常是由任务或目标驱动的，所以通过在分析中考虑设计良好的任务的影响，这也可能是一个潜在的解决方案。总的来说，在VR中设计实验时应该考虑到这些缺陷。有些研究问题可能需要重新制定或使用不同的方法来回答。然而，在许多应用中，VR仍然是一个强大的工具，可以收集以前很难评估的各种被试的信息。随着当前VR领域的发展，计算能力不断增强，算法效率不断提高，我们期待在不久的将来这些问题的解决方案会出现。

眼动跟踪技术在VR中的应用

VR中的眼动跟踪是一个很好的解决方案，它结合了经典实验室设置与固定显示器屏幕和现实世界的优势。介绍了一个实现眼球追踪到任何VR设置的方法，被试感兴趣对象的定义，以及收集远近物体的注视数据的方法。通过3D可视化，你可以得到一个整体的画像，即，哪个物体和物体的哪个部分被看得最多。

这种技术也有一些小缺点。一个缺点是戴眼镜的被试不能很好地参与VR实验。另一个因素是眼动仪需要校准和验证，这需要额外的时间，并可能在较长的实验中被证明是破坏性的。此外，在校准后，被试不能再移动头上的设备，这就是为什么你需要确保它在实验开始时舒适地放在脸上。VR中的快速移动可能会导致设备在脸上移动，这是应该避免的。在分析过程中，有些眼睛比其他眼睛更容易被跟踪是一个问题(通常明亮的眼睛比黑色的眼睛好)。由于我们记录的注视点的置信度只有0.5以上，一些被试需要分析的注视点比其他人多得多。

虚拟现实与现实世界行为的可比性

在考虑了上述所有因素之后，还有一个问题：我们在虚拟现实中观察到的行为有多少与现实世界中的实际行为相对应?换句话说，我们能否将在VR中获得的结果概括为正常的人类(观看)行为?在头部固定的情况下，与在普通屏幕上进行的实验相比，现实世界的相似性有所提高，这似乎证明了VR的使用是合理的。然而，在解释我们的结果时，我们需要记住一些不同之处。

首先，与外部部分相比，屏幕中央的有效分辨率更高。这影响了头部和眼球运动之间的关系，因为在VR中，主体需要移动头部才能看到感兴趣的高分辨率对象。目前HMD相当有限的视野也可能导致这种效应。

在观看行为方面，现实世界与虚拟世界的主要区别之一是趋同-适应-冲突。因为两个屏幕到眼睛的距离总是相同的，所以我们的镜头不需要转移焦点来观察不同深度的物体。因为所有的信息都是在一个焦平面上给出的，而不是像在现实世界中那样从多个焦平面传来的，所以所传递的深度信息也更少。缺乏像模糊这样的景深线索会导致对物体大小的不同感知。目前在VR领域有几种解决方案，包括光场显示或使用眼动跟踪模糊周边。然而，我们必须考虑到，类似的限制也适用于典型的显视器设置，即这不是VR特有的问题。尽管如此，由于虚拟世界对被试的不同呈现方式可能会影响视觉行为，所以应该考虑到这一点。

在更大的虚拟环境中自然行走是很难实现的，因为它需要全方位的跑步机，这种跑步机正在研发中，但今天在消费市场上获得仍然困难且昂贵。另一种解决方案是安装一个和虚拟环境一样大的跟踪区域，但这需要很大的空间，还需要解决VR背包或无线信息传输等电缆的问题。在这些领域有很多发展，这就是为什么我们期待在不久的将来出现新的和负担得起的解决方案。涉及到与物体交互的实验可能需要一个手部跟踪系统，而不是使用控制器。目前有一些可行的解决方案，包括使用红外摄像头或使用手套的系统跟踪手部，这些系统也可以提供一些力反馈。这些与现实世界的差异是否会影响结果，在很大程度上取决于研究问题，但在设计实验和评估结果时都应该考虑到这些因素。

结论

总的来说，眼球追踪是一个非常有用的工具来研究VR中的各种问题。该方法工作精确，使用本文提出的方法，可以很容易地在虚拟环境中将眼睛的注视与不同的物体进行匹配。对各种环境进行模拟并对其各个方面进行控制的可能性具有很高的研究价值，值得进一步开发。VR的缺点是给实验者带来了一些自然运动和头晕的挑战，目前还没有找到一个完美的解决方案。虽然由于VR技术领域的快速变化，我们预计这些问题的解决方案将很快被发现。最后，对于我们的研究来说，使用VR的优点超过了它的缺点，它为我们分析我们的研究对象在VR城市中的行为打开了很多新的机会。综上所述，我们认为VR中的眼动技术具有巨大的研究潜力，可以用于回答人类认知和行为的进一步问题。我们希望通过本文激发一些新的想法，并将这项技术的优势在未来得到进一步的应用。