In the Eye of the Beholder: A Survey of Models for Eyes and Gaze
第二篇EGT的论文阅读,同样是review性质的一篇论文
In the Eye of the Beholder: A Survey of Models for Eyes and Gaze
Dan Witzner Hansen, Member, IEEE, and Qiang Ji,Senior Member, IEEE
链接在这里(research gate)
摘要
本文综述了眼睛检测和视线追踪技术的发展现状,阐述了有发展价值的技术以及有待进一步解决的问题。本文详细回顾了最近的眼睛模型和眼睛检测和跟踪技术,调查了视线追踪的方法,并根据它们的几何特性和报告的精度进行了比较。这篇综述表明,尽管其表面上很简单,但一般的眼睛检测技术的发展涉及解决许多挑战,需要进一步的理论发展,因此对计算机视觉及其他领域的许多问题也很有意义。
本文的重点在眼睛检测和视线追踪上,EGT的主要流程如下图,眼睛检测和视线追踪毫无疑问是EGT的核心模块。
此外,未来EGT的发展目标应当是突破一下几项限制:红外线的限制;头戴式设备(前提是轻便);灵活度;校准的限制;价格;鲁棒性(佩戴眼镜等);对视线所表达的理解。
人眼检测
根据本文所述,目前主要的人眼检测方法有这几种:Shape-Based;Feature-Based Shape;Appearance-Based;Hybrid Models;Other Methods,这几种方法的特点如下表。
- Shape-Based
基于形状的方法的分类取决于模型是简单的椭圆形还是更复杂的性质。形状模型通常由两部分组成:几何眼模型和相似性度量。需要注意的是,一般的EGT需要的是对瞳孔和虹膜的检测。
1. 椭圆模型
顾名思义,把瞳孔和虹膜在不同观察角度下都泛化成一个椭圆形,因此使用5个参数即可完成建模(x,y,z,a,b)。本文主要提到下面几种方法:
Kim、Ramakrishna和Perez等人:使用图像强度阈值估计瞳孔椭圆的中心。边缘检测技术用于提取边缘或瞳孔边界。由于效率的原因,通常采用圆形约束,因此模型仅适用于近正面,但运算量少。
Kothari和Mitchell:提出了一种投票方案,该方案使用时空信息来检测眼睛的位置。他们使用梯度场,知道沿虹膜边界的梯度从虹膜中心向外。启发式规则和大量的时间支持被用来过滤错误的瞳孔候选。Valenti和Gevers提出了类似的投票方案。他们的方法是基于强度图像中的等曲率,并在投票过程中直接使用边缘方向。由于这些模型依赖于特征空间中的最大值,当眼睛区域中的特征数量减少时,它们可能会将其他特征误认为眼睛(例如眉毛或眼角)。这些方法通常在受约束的搜索区域可用时使用。
Daugman:提出了一种不同的瞳孔和虹膜检测方法。该方法利用椭圆形状模型下梯度幅度曲线积分的优化。该模型不考虑轮廓邻域,因此可能忽略有用的信息。witzner和pece也将虹膜建模为椭圆,但椭圆通过EM和RANSAC优化方案局部拟合到图像中。他们提出了一个似然模型,将相邻信息合并到轮廓似然模型中,并且还避免了显式特征检测(如最强的灰度梯度和阈值)。
2. 复杂模型(可变轮廓模型)
复杂模型可以展现眼睛结构的更多细节,本文主要提到下面几种方法:
Yuille等人:使用两条抛物线和一个圆形来描述眼睛,因此需要11个参数。尽管能够描述更多的细节,但实验研究发现,在检测眼睛时,模型的初始位置至关重要,例如,当初始化眉毛上方的模板时,算法无法检测到眼睛。另一个问题在于模型的复杂性。此外,这种方法可能会难以处理眼睛遮挡的问题(因为眼睑闭合或头部姿势改变)。不过这种方法可以利用眼角来进行加速。如下图:
Ivins和Porrill:描述了一种在视频序列中跟踪虹膜三维运动的方法。提出了一种五参数可伸缩变形模型,将摄像机距离变化引起的平移、旋转、缩放和瞳孔收缩引起的局部缩放联系起来。这种方法需要高质量和高分辨率的图像。
Del Bimbo:提出了一个具有六个参数的眼形模型,这些变形参数由两个共享相同长轴的半椭圆组成。初步计算出左右眼位置和形状的粗略估计值。然后对模板进行优化,类似于Yuille等人的方法。将椭圆模型与复杂眼睛模型相结合,可以加快定位速度,提高定位精度。
复杂模型存在几个明显的缺陷:
1.计算要求,