文献精读：虚拟现实中的视觉注意预测问题

最新推荐文章于 2024-10-09 17:13:05 发布

sy鹅

最新推荐文章于 2024-10-09 17:13:05 发布

阅读量786

点赞数 25

文章标签： vr 机器学习虚拟现实 ar

本文链接：https://blog.csdn.net/FunkName/article/details/139917914

版权

在沉浸性的虚拟世界中，为了在有限的性能条件下创造出环绕型的环境，画面往往是根据使用者注视（gaze）的位置实时渲染而生成的。相比手机、电脑等以2D平面为基础的设备，虚拟现实的沉浸型更高，对用户视觉注意追踪的准确性和及时性也就更高。

甚至部分虚拟现实应用主要利用注视、而不是手柄遥控来完成用户交互。下图展示的就是注视用户交互的原理图。

（来源：Research Gate ）

然而，大多数相关的研究过去集中于在自由状态下、无明显限制或要求(free-viewing condition)的眼球跟踪研究。这种研究在实用性上比较局限，无法很好的完成某些任务伴随下的虚拟场景中的预测。而现实情况中，大多数虚拟场景都会有不同程度的用户交互。

在2021年，北京大学与University of Stuttgart合作的PhD团队在IEEE发表了关于任务条件(task-oriented)下虚拟环境中的视觉注意预测，并为文章中的学习模型取名“FixationNet“。以往的 VR 眼神跟踪也仅限于显示当前和历史视觉注意位置。而FixationNet的研发团队在现有方法的基础上开发了一种基于学习的视觉注意预测模型。

首先，作者设计了一个在静态和动态虚拟环境中的搜索任务实验，其中有目标和用来分散注意力的物体。利用这个搜索任务实验，他们分析了视觉注意分布以及与历史视觉注意位置、显著性、目标位置和历史头部旋转速度等因素的相关性。

（搜索任务

图源“FixationNet: Forecasting Eye Fixations in Task-Oriented Virtual Environments”）

有了这些相关性，在通过特征提取、网络构建和算法训练等处理，加上跨用户和跨场景评估，FixationNet 的短期定点预测准确性已被证明比目前的与现有技术相比有了大幅提高。

值得注意的是，研究团队区别了两种类型的视觉注意--视觉注意（fixation）和眼球移动（saccade）。前者指的是眼神在某个位置的定点集中，后者则是在两个定点之间的快速移动。研究团队从眼球视觉注意的总体数据集中区分出固定数据。该数据集中的类别标记有利于进一步的研究。

（Fixation和Saccade的区别

图源：https://www.researchgate.net/figure/example-of-saccades-and-fixations-eye-movement-is-represented-in-red_fig1_324963405）

虽然文章中表示，FixatioNet预测准确率有了大幅提高。但模型训练的数据仅包含形式和内容高度一致的搜索任务。这可能会限制其在与搜索任务大不相同的其他类型任务中的应用。使用更多样的任务可以更好地确定系统的有效性，并说明其在各种任务导向的情况下的应用。

此外，作者进行分析的四个场景都由风格相似的图形组成。文字或醒目的图形会如何影响视觉注意分析的结果呢？将该学习模型与重定向行走相结合也是一个有意思的研究方向，在实际应用中很有可能出现这种情况。

FixationNet通过特征提取，分析相关因素（如显著性图），处理这些数据，并最终将它们整合到一个模型中。如果能将这一过程中的更多步骤自动化，可以使视觉注意预测更加高效。

文献：“虚拟现实环境中用户视觉注意的分析与预测”

引用：Z. Hu, A. Bulling, S. Li and G. Wang, "FixationNet: Forecasting Eye Fixations in Task-Oriented Virtual Environments," in IEEE Transactions on Visualization and Computer Graphics, vol. 27, no. 5, pp. 2681-2690, May 2021, doi: 10.1109/TVCG.2021.3067779.