超2000万图片,全球最大人眼图像数据集开源了

本文转自机器之心。

作者:杜伟

涵盖 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量和眼动类型等因素,德国图宾根大学的研究者创建了全球最大的人眼图像公开数据集——TEyeD。

在当今世界,基于图像的眼动追踪(eye tracking)变得越来越重要,这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。此外,眼动的方式可以识别甚至在某种程度上预测我们的行动和意图,所以眼动分析可以赋能新的应用,特别是与 VR 或 AR 等现代显示技术结合时。例如,人眼注视(gaze)信号连同人机交互的可能性,使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。在手术显微镜的应用场景中,外科医生必须进行多种控制行为,这时视觉信号可以用于自动对焦。人眼注视行为还可用于诊断精神分裂症、自闭症、阿尔茨海默症、青光眼等多种疾病。在 VR 或 AR 游戏中,人眼注视信号可用于减少渲染资源的计算。

除了人眼注视信息以外,对人眼的观察还可以带来更多信息源。例如人眼闭合的频率可用于衡量人的疲劳程度,这是汽车驾驶和航空飞行场景中的一种有效安全特征。另一个重要的信息源是瞳孔大小,它可以作为估计指定任务中人们认知负荷的基础,然后调整内容(如基于媒介的学习)以更好地适应人的精神状态。最后,借助虹膜特征以及个人的人眼注视行为,人眼相关的信息可以在生物识别过程中得到应用。

近日,来自德国图宾根大学的研究者创建了世界上最大的、统一人眼图像公开数据集 TEyeD,这些图像均通过头戴式设备拍摄获取。具体而言,TEyeD 的创建过程中使用了七种不同的头戴式眼动追踪器,其中两个还结合了 VR 或 AR 设备。TEyeD 中的图像在不同的任务场景中获得,包括乘车、模拟飞行、户外体育运动以及日常室内活动。

此外,数据集中的人眼图像包括 2D 和 3D 特征点、语义分割、3D 眼球注释以及注视向量(gaze vector, GV)和眼动类型。对瞳孔、虹膜和眼睑均提供了特征点和语义分割,视频长度从几分钟到几小时不等。TEyeD 数据集拥有 2000 多万张精心注释的人眼图像,为推动现代 VR 和 AR 应用中计算机视觉、眼动追踪和注视估计领域的研究提供了独特且一致的资源和良好的基础。

论文地址:https://arxiv.org/pdf/2102.02115.pdf

数据与代码地址:http://link.52cv.net/XPh

与现有数据集的对比

下表 1 列出了包含人眼特写图像的现有数据集。每个数据集处理特定的问题,例如 Casia 和 Ubiris 数据集借助虹膜识别个人。在 NNVEC 中,对光学向量和眼球位置的直接估计可以补偿头戴式眼动追踪器的位移。

TEyeD 通过使用 7 种分辨率不同的眼动追踪器结合并扩展了以前发布的数据集,合并了现有数据集提供的所有可用注释,并通过 3D 分割和特征点扩展了这些数据集。更具体地说,TEyeD 集成的数据集包括 NNGaze、LPW、GIW、ElSe、ExCuSe 和 PNET。此外,来自研究 [69] 的完整数据也得到了精心注释。

TEyeD 一共包含 2000 多万张图像,是全球最大、利用头戴式眼动追踪器拍摄的图像数据集

数据集详情

下图 1 展示了 TEyeD 数据集中的示例图像。具体而言,第 1 和第 5 列包含输入图像;第 2 和第 6 列的人眼图像展示了巩膜、虹膜和瞳孔的叠加分割(overlaid segmentation);第 3 和第 7 列展示了输入图像的特征点,其中红色表示眼睑、绿色表示虹膜、白色表示瞳孔;第 4 和第 8 列展示了计算出的眼球以及眼球中心和注视向量。

下图 2 展示了瞳孔(左)、虹膜(中)和眼睑(右)特征点的对数分布:

下图 3 展示了瞳孔、虹膜和巩膜的区域分布箱形图(左),以及注视向量的对数分布(右):

下图 4 展示了眼球位置 (x,y) 的分布,以及映射到固定分辨率 192×144 的眼球半径(以像素为单位)箱形图:

注释过程

对于 TEyeD 数据集中的特征点注释和语义分割,研究者同时使用了半监督方法和多注释 maturation (MAM) 算法。与原始算法不同,他们没有用 SVM,而是将卷积神经网络(CNN)与 HOG 特征相结合。此外,研究者还将迭代次数限制在了 5 次,并使用两个竞争模型。其中一个模型包含 ResNet50,并使用 [36] 中的验证损失函数进行特征点回归训练;对于另一个模型,他们将语义分割与 U-Net 和残差块一起训练。

最初,研究者对 2 万张具有特征点的图像进行了注释,并将它们转化成语义分割。然后,他们训练 CNN 并利用 MAM 算法不断进行改进。在 5 次迭代后,ResNet50 特征点转化成了语义分割并与 U-Net 结果进行对比。

具体而言,研究者基于 [30] 中的方法对 3D 眼球和光学向量进行了注释。但是,他们没有使用椭圆形瞳孔,而是使用了椭圆形虹膜,这是因为后者仅受角膜曲率(corneal refraction)的部分影响。

通过结合 2D 特征点、分割和 3D 眼球模型,研究者对 3D 特征点和分割进行了几何计算。由于瞳孔总是位于虹膜的中心,他们考虑了两种不同的 3D 分割和 3D 特征点。

眼动注释则分为了注视(眼球静止不动)、扫视(两次注视之间的快速眼动)、平滑跟随(缓慢眼动)和眨眼。

基准评估

在实验中,研究者将数据分成训练集和验证集。为了避免训练和验证集中出现相同的实验对象,他们将整个记录分配给训练集和验证集的其中一个。

对于评估环境,研究者将基于 C ++ 的 CuDNN 框架用于神经网络模型。测试环境硬件包括一个 4 核心、16GB DDR4 内存的 Intel i5-4570 CPU 和一个 4 GB 内存的 NVIDIA 1050ti

下表 3 显示了特征点回归的结果。结果表明,如预期一样,较大模型在回归任务上更加有效。

下表 4 得出了同样的结论,其中显示了眼球参数估计的结果:

如上表 3 和 4 所示,与现有规模较小的数据集相比,我们可以看到 TEyeD 数据集具有明显优势。这些结果还表明,如预期的那样,对现实世界场景中拍摄的图像进行跨眼球追踪(cross-eye-tracker)泛化是一项具有挑战性的任务,但通过结合使用 TEyeD 与更复杂的架构可以处理这项任务。因此,无论何时使用一种新的眼动追踪设备都可以轻松解决跨眼球追踪泛化任务,并且无需创建和注释新数据。

下图 5 显示了语义分割的结果:

下表 6 显示了眼动识别的结果。可以看到,注视向量在眼动分类中更加有效,因为它对眼动追踪器的位移做出了补偿。

END

备注:姿态

姿态估计交流群

人体姿态估计、手势识别等更多新鲜资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: 图像质量评价是对一幅图像的视觉感受进行定量化的过程,目的是衡量图像的清晰度、对比度、色彩饱和度等因素,以评判图像是否符合人眼视觉感受。而LIVE数据集则是一个常用的用于图像质量评价研究的数据集。 LIVE数据集包含了一系列原始图像和经过压缩、降噪等处理后的图像,以及人类主观质量评分的结果。利用这个数据集,研究者可以将各种图像质量评价算法应用于这些图像上,并与人眼主观评分进行比较,从而评估这些算法的有效性和准确性。 在图像质量评价的研究中,人眼主观评分是一种常用的方法。参与者会根据其对图像的主观感受,给予图像一个质量评分。这些主观评分经过统计分析可以得到一定的结果,作为参考标准。而LIVE数据集中就包含了这些主观评分的结果,将其与算法评价结果进行对比,可以进一步验证算法评价的准确性。 在图像质量评价算法的研究中,有很多不同的方法。一种常用的方法是基于特征提取和模型学习的方法,例如,通过提取图像的对比度、清晰度、颜色等特征,然后通过机器学习的方法来建立图像质量评价模型。另一种常用的方法是基于人类视觉感知的方法,例如,通过模拟人眼的视觉系统,来评估图像的质量。 总结而言,在图像质量评价研究中,LIVE数据集是一个常用的数据集,用于验证图像质量评价算法的有效性和准确性。通过将算法评价结果与人眼主观评分进行对比,可以进一步改进和优化图像质量评价算法。同时,通过研究LIVE数据集中的图像质量评价结果,可以更好地理解人眼图像质量的感知和评价过程。 ### 回答2: 图像质量评价是指对图像的内容、颜色、清晰度等方面进行客观评估与判断。对于live数据集图像的质量评价,可以从以下几个方面进行评估。 首先,可以从图像的清晰度来评价其质量。清晰度是指图像中细节的可见程度。对于live数据集图像,可以采用一些经典的清晰度评价算法,比如结构相似性指数(SSIM)或均方误差(MSE)来衡量图像的清晰程度。通过计算图像与原始图像之间的相似度,可以得到图像的清晰度评分。 其次,可以从图像的内容丰富性来评价图像质量。内容丰富性指的是图像中包含有多少信息。一张好的图像应该能够传递出丰富的信息,而不仅仅是简单的单一物体。对于live数据集图像,可以对图像进行目标检测或者图像分割等算法进行处理,得出图像中包含的目标数量和质量,进而评估图像的内容丰富性。 此外,可以从图像的颜色还原能力来评价图像质量。颜色还原能力是指图像中颜色的准确性和还原度。对于live数据集图像,可以通过计算图像的颜色分布直方图来评估图像的颜色还原能力。如果图像的颜色分布与原始图像的颜色分布相似,则说明图像的颜色还原能力较好。 最后,可以从人眼主观感受来评价图像质量。尽管主观感受是具有主观性的评价方法,但它能够更好地反映人类对图像质量的直观感受。可以通过让一些评价者对live数据集图像进行主观评价,并记录下他们的评价结果,然后对评价结果进行统计和分析,得到图像质量的平均评分。 综上所述,可以通过图像的清晰度、内容丰富性、颜色还原能力和人眼主观感受等方面来评价live数据集图像的质量。通过综合考虑不同的评价指标,可以得出对于图像质量的全面评估。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值