【创新实训2】Appearance-Based Gaze Estimation in the Wild 阅读

本文链接：https://blog.csdn.net/Jemary_/article/details/88764102

本文介绍了MPIIGaze数据集，包含大量日常笔记本使用环境下的眼睛图像，具有高光照和外观变化。提出了多模式CNN的外观基凝视估计方法，优于现有技术。数据集分为原始和标准化部分，包含详细的注释信息，用于模型训练和评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

这篇文章提供了MPIIGaze数据集，其中包含从15位参与者收集的213,659张图片，均在超过三个月的日常笔记本电脑使用期间采集的。在外观和光照方面，该数据集比现有数据集更具可变性。文中还提出了一种使用多模式卷积神经网络进行基于外观的视线估计的方法，该方法在最具挑战性的跨数据集评估中明显优于最先进的方法（2015 CVPR）

相比之前的一些数据集的采集条件较为严格，眼睛外观的可变性有限，并且假设头部姿势估计准确，局限性较大。

视线估计

视线估计方法可以是基于模型的或基于外观的[12]。基于模型的方法使用几何眼睛模型，并且可以进一步分为角膜反射和基于形状的方法，这取决于是否需要外部光源来检测眼睛特征。基于角膜反射的早期研究方法主要集中在静止设置[36,30,13,51]，后来扩展到使用多个光源或相机处理任意头部姿势[52,53]。相比之下，基于形状的方法[16,4,50,44]直接从观察到的眼睛形状（例如瞳孔中心或虹膜边缘）推断凝视方向。但两者准确度都较低，并且不清楚基于形状的方法是否能够稳健地处理低图像质量和可变光线条件。基于外观的凝视估计方法直接使用眼睛图像作为输入，因此可以使用低分辨率眼睛图像。虽然早期多是固定的头部姿势[3,42,48,35,27,24]，但近期的工作主要集中在3D头部姿势估计的方法[25,26,9,6]。然而，基于外观的方法需要比基于模型的方法更大量的用户特定训练数据，并且担心模型的泛化能力。