Openface (三) EYE GAZE 数据集

最新推荐文章于 2025-02-17 07:00:00 发布

刘咚咚的记事本

最新推荐文章于 2025-02-17 07:00:00 发布

阅读量4k

点赞数 3

分类专栏： openface

本文链接：https://blog.csdn.net/weixin_41386168/article/details/118939687

版权

openface 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了几个数据集在三维视线估计和眼球追踪技术中的应用，包括Eyediap和MPIIGaze。Eyediap数据集通过深度摄像头获取眼睛和乒乓球的三维位置，计算视线方向。MPIIGaze则利用RGB摄像头和三维模型进行标注，但这种方法存在精度问题。此外，还提到了GazeCapture数据集，这是一个大规模的眼球追踪数据集，用于研究实时凝视估计模型。文章涵盖了数据集的详细信息，如校准参数、头部姿态和注视点坐标等，以及相关的误差评估和模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三维视线估计

1、Eyediap 数据集 ：利用深度摄像头标注 RGB 视频中的眼睛中心点位置和乒乓球位置。把这两个位置映射到深度摄像头记录的三维点云中，从而得到对应的三维位置坐标。这两个三维位置坐标相减后即得到视线方向。
https://www.idiap.ch/en/dataset/eyediap
head_pose.txt ：逐帧头部姿势参数。
eye_tracking.txt ：逐帧 2D 和 3D 眼睛位置。
ball_tracking.txt ：球目标的逐帧 2D 和 3D 位置。
screen_coordinates.txt ：逐帧 2D 和 3D 屏幕坐标。
rgb_vga_calibration.txt：RGB Kinect 相机的校准参数。
depth_calibration.txt：深度相机的校准参数。
rgb_hd_calibration.txt：RGB高清摄像头的标定参数。

2、MPIIGaze ：利用 RGB 摄像头的公开参数，将 gaze 目标以及眼睛位置坐标（通过一个三维的 6 关键点模型得到）通过算法变换到相机坐标下，然后再计算 gaze 作为 ground truth。但是这种标注方法不仅操作复杂，而且并不准确。
https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/gaze-based-human-computer-interaction/appearance-based-gaze-estimation-in-the-wild

3、MPIIGaze 与 MPIIFaceGaze 使用的是同一批数据，但并不是同一个数据集。MPIIGaze 数据集并不包含全脸图片；MPIIFaceGaze 的 ground truth 定义方式与 MPIIGaze 不同。
https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/gaze-based-human-computer-interaction/its-written-all-over-your-face-full-face-appearance-based-gaze-estimation/

原始数据集：http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze.zip
归一化数据：http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze_normalized.zip
图像保存在Maltab中，预处理需要调整RGB通道，水平翻转图像，并旋转90度。
new_image = original_image(:,:,[3 2 1]);
new_image = flip(new_image, 2);
new_image = imrotate(new_image, 90);

Label:
每个参与者文件夹中都有 pxx.txt 文件。其中保存信息：
Dimension 1：图像文件路径和名称。
Dimension 2~3：注视点在屏幕上的坐标，以像素为单位，实际屏幕尺寸可以在“校准”文件夹中找到。
Dimension 4~15：六个面部标志的 (x,y) 位置，即四个眼角和两个嘴角。
Dimension 16~21：基于 6 点的 3D 人脸模型、旋转和平移在相机坐标系中估计的 3D 头部姿态：我们在 [ Eye Tracking for Everyone] 中实现了相同的基于 6 点的 3D 人脸模型.
https://www.cnblogs.com/hansjorn/p/12575838.html
https://blog.csdn.net/qq_40136542/article/details/109343631

Dimension 22~24 (fc)：相机坐标系中的人脸中心，是6个焦点标志人脸模型的平均3D位置。由于头部和面部的中心不同，头部平移略有不同。
Dimension 25~27 (gt)：相机坐标系中的 3D 凝视目标位置。注视方向可以计算为gt - fc。
维度 28：哪只眼睛（左眼或右眼）用于 [ Appearance-based Gaze Estimation in the Wild] 中的评估子集。

每个参与者都有一个“校准”文件夹，其中包含
(1)Camera.mat：笔记本电脑相机的内在参数。“cameraMatrix”：相机的投影矩阵。“distCoeffs”：相机畸变系数。“retval”：均方根 (RMS) 重投影误差。“rvecs”：旋转向量。“tvecs”：平移向量。
https://blog.csdn.net/weixin_43206570/article/details/84797361
(2) monitorPose.mat：相机坐标中图像平面的位置。“rvecs”：旋转向量。“tvecs”：平移向量。
(3)creanSize.mat：笔记本电脑屏幕尺寸。“height_pixel”：以像素为单位的屏幕高度。“width_pixel”：以像素为单位的屏幕宽度。“height_mm”：以毫米为单位的屏幕高度。“宽度_毫米”：

左轴显示在屏幕坐标系中估计和真实凝视位置之间的欧氏误差，以毫米为单位。右轴显示了相应的角度误差，这是根据数据集提供的摄像机和监视器校准信息以及3D注视估计任务的相同参考位置近似计算出来的。在这里插入图片描述
左轴是由估计的和真实的三维注视向量直接计算出来的角误差。右轴显示相应的欧几里德误差，该误差是通过将估计的三维注视向量与屏幕平面相交来近似的。

在这里插入图片描述

注视点估计
https://gazecapture.csail.mit.edu/
收集并公布了一个涵盖 1400 多人、240 多万样本的数据集，GazeCapture
数据集：https://gazecapture.csail.mit.edu/download.php
**[Eye Tracking for Everyone. CVPR 2016]**模型在 iPhone 上的误差是 1.71cm，在平板上的误差是 2.53cm；代码： https://github.com/CSAILVision/GazeCapture
[On-device few-shot personalization for real-time gaze estimation. ICCV 2019] 精简后的模型在 iPhone 上的误差为 1.78cm,在 Google Pixel 2 Phone 的处理速度达到 10ms/帧。