Accurate Eye Center Localization via Hierarchical Adaptive Convolution

最新推荐文章于 2023-03-29 10:26:04 发布

john_bh

最新推荐文章于 2023-03-29 10:26:04 发布

阅读量318

点赞数 1

分类专栏： Eyes

本文链接：https://blog.csdn.net/john_bh/article/details/103730079

版权

Eyes 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文:http://bmvc2018.org/contents/papers/1112.pdf
作者及团队：Haibin Cai & Bangli Liu & Zhaojie Ju
会议及时间：BMVC(british machine vision conference) 2018
Code:https://github.com/myopengit/HAC

文章目录

Abstract

1. 作者想解决什么问题？

Accurate Eye Center Localization。
在实际的非穿戴式场景（例如与台式机，笔记本电脑，电话或配备摄像头的机器人进行交互）中捕获的图像中对眼睛中心的定位。

2. 作者通过什么理论/模型来解决这个问题？

提出了hierarchical adaptive convolution(HAC)方法，在消耗低计算成本的同时，精确定位眼睛中心。它主要利用虹膜和巩膜之间的光照变化。更具体地说，设计了新颖的分层内核对人眼图像进行卷积，并对相邻的卷积结果进行微分运算，生成各种response maps。通过在response maps中搜索最大响应值来定位最终的眼睛中心。

3. 作者给出的答案是什么？

在数据集BioID和GI4E上测试，在平均归一化误差e <0:05时，准确度为92.8％（BioID）（大约2~3 pixels），99.5％（GI4E）；在平均归一化误差e <0:025时，准确度为86.4％（GI4E）(大约2 ~ 3 pixels）。
另外在Intel Core i7-8550U CPU的笔记本电脑上，定位两个眼中心的平均处理时间约为1ms。

1.Introduction

1.1. 作者为什么研究这个课题？

为了克服非正面视景条件下的圆形边界限制，提出将三维视景位姿建模到设计的内核中的方法。

1.2. 目前这个课题的研究进行到了哪一阶段？

基于人脸对齐思路。但是由于遮挡，视角，种族肤色，照明条件和头部姿势造成的高度外观变化，使眼睛中心不被包含在facial landmarks中，尤其对于低分辨率的图像更具挑战。
最受欢迎的眼中心定位方法之一是积分微分算子（IDO）[8]，该函数通过搜索最大的微分响应以及预定义的圆边界来定位眼中心。但是IDO的计算量太大，无法实现实时性能。为了降低IDO的计算复杂度，Cai等人。 [5]通过将积分运算编码到包含不同圆边界的内核中，提出了基于卷积的积分微分算子（CIDO）。CIDO在很大程度上提高了定位速度，但对正面2D圆边界的要求限制了它的处理性能。许多研究人员[1、7、22]还利用虹膜的圆边界属性来定位眼中心。这些方法的都是假设在正视条件下。

1.3. 作者使用理论基于哪些假设？

contribution1: 根据不同的视角构造新颖的分层核，并根据定位阶段获得的3D头部姿势进行自适应选择，设计的核使算法能够有效处理虹膜边界不是圆形的情况。

contribution2: 分层核和卷积框架的设计大大提高了眼中心定位精度。在两个最常用的公开数据集上的实验结果表明，HAC在很大程度上优于最新的眼中心定位方法。

2.method：研究方法：数据来源+重要指标+模型步骤+每个步骤得出的结论

2.1. 模型分哪几步？每一步分别得出了什么结论？

2.1.1.Integro-Differential Operator

观察沿虹膜和标量的巨大照明变化，IDO [8]通过搜索沿圆的平均值的最大微分半径来定位眼睛中心。
IDO的数学定义如下:
在这里插入图片描述
其中积分操作是通过对轮廓周围的像素进行平均来计算，轮廓是由半径为r且圆心是（x0，y0）。

2.1.2.Hierarchical Adaptive Convolution

IDO最初是为虹膜识别而设计的，它有一个假设，即虹膜总是有一个圆形的边界，因为它要求用户将眼睛前方近距离对准相机。然而，在人机交互场景中，由于视角和头部姿态的不同，这种假设并不总是正确的。除了正面视图的假设外，并且IDO的计算成本也很高。最近，有学者[5,7]提出通过减少计算负荷或调整能量函数来适应人机交互场景。然而，所建立的模型中仍然存在圆形边界的假设，这对定位精度有很大的影响。本文提出通过将视角特性建模到设计的层次核中来消除这一假设。

2.1.3.Framework Description

在这里插入图片描述
该算法的输入是图像，而输出是眼中心。图的左上四分之一显示了预构建的分层内核的图示。算法的输入是位于图像左下角的图像。一旦图像被捕获，经典的级联面部检测器[Robust real-time face detection]就被用于面部检测，然后使用SDM算法来检测facial landmark，基于SDM得到局部的眼睛区域界标，可以提取粗糙的眼睛区域；然后将检测到的眼睛区域归一化为50 * 50的眼睛图像。应注意，眼睛必须包含在图像内部。

通过准确地检测和归一化眼睛区域，我们可以为眼睛半径设置一个固定范围。通过解决经典的PnP问题，获得的facial landmark位置也可以用于计算3D头部姿势信息。在我们的案例中，我们利用POSIT算法[9]和预定义的3D面部模型来估算人的头部姿势。估计的头部姿势用于自适应地选择最近的观看分层内核。最终的分层内核包括选定的分层内核和正面查看分层内核。然后，可以通过将归一化后的眼睛区域图像与最终的分层内核进行卷积来获得图中中间部分所示的积分图的分层。卷积运算模拟了IDO中提出的积分运算，从而大大提高了执行速度。使用按元素划分的操作后，我们可以获得不同的response maps，如图右部分所示。可以通过在response maps中搜索最大响应像素来定位最终的眼睛中心。

受[11]的启发，该方法将眼睛的睁开状态和闭合状态分开以提高定位性能，文章提出了一种简单而有效的方法来检查眼睛是否完全闭合。通过使用眼睑的距离来测量眼睛的高度，并且可以使用两个眼角来确定眼睛的长度。如果眼睛的高度与长度的比小于0.08，则将眼睛的状态视为完全闭合，并通过使用眼睑旁边四个landmarks 的平均值来计算眼睛的中心。

2.1.4.Hierarchical Kernels

hierarchical kernels对三维视觉姿态进行建模，以提高定位精度。第一步，利用以下方程构造二维圆形边界:
在这里插入图片描述
其中r是半径，kernel大小是2r+1，（x,y)是像素的位置坐标，Tr(x,y)依赖它的位置，如果像素的位置在圆形边界附近，那么像素的值将被赋值为1，t是角度范围。

通过为构造的2D圆形边界分配零深度值，我们可以获得3D圆形边界。然后，沿着3D圆形边界的像素从三个不同的轴旋转以处理不同的视角。对于每个轴，我们将旋转范围设置为-45度至45度，间隔为15度。包括正面视角在内，总共有343个视角。通过将3D圆形边界与构造的旋转矩阵相乘并将其投影回正面视图，设计的内核可以覆盖大范围的视角。
由于每个eye patch均被标准化为50*50的固定大小，因此设计内核中的半径范围也可以固定。在实际中，我们将半径范围设置为9到12，发现足以覆盖距离不同的不同人的正确半径。因此，每组分层内核由4个具有不同半径的卷积内核组成。应该注意的是，这些内核的构造是预先计算的，因此在本地化阶段不会增加计算量。

2.1.5.Convolution and Differential Operation

一旦内核被构建，它们可以用来卷积eye patch。正如前面提到的，我们选择了两组层次内核来卷积eye patch。一种是nearest viewing hierarchical kernels，另一种是frontal viewing kernels。使用frontal viewing kernels是为了处理人仍然在看正面方向，但是他的头转向其他方向。对于每组分层核，卷积运算和微分运算分别按下式进行:
在这里插入图片描述

2.2. 研究的数据从哪里来？

BioID数据库：包含23个不同人的1521幅灰度图像，分辨率为384 * 288像素。由于眼睛图像的分辨率低，不同的观看条件，强烈的闪烁和不同的眼睛状态，该数据集中的眼睛中心定位被认为具有挑战性。该数据集还包含一些完全闭合的眼睛图像，即使人类也不可能指出实际的眼睛中心。在某些图像中，眼镜上的反射会完全隐藏眼睛。该数据集的面部检测率约为96.5％。

GI4E数据库：包含103个不同主体的1236张图像，分辨率为800 * 600像素。每个对象有12张图像，分别对应屏幕中的不同注视点。由于分辨率较高，因此该数据集如今被视为普通的台式机或笔记本电脑设置。该数据集的面部检测率约为97.4％。

2.3. 研究中用到的重要指标有哪些？

眼睛位置的准确度测量以归一化误差计算，该误差记录了两个眼点的最大误差。定义如下：
在这里插入图片描述
其中dl是预测左眼中心与ground truth的之间的欧几里得距离。 dr是右眼的相应欧几里得距离。 d是ground truth 左眼和右眼之间的欧几里得距离。 e <0:05的归一化误差意味着定位结果到瞳孔距离长度之小于0.05。

2.4. 实验结果

在这里插入图片描述

在这里插入图片描述
在下面可视化图中，绿点和红点分别代表ground truth和预测的眼睛中心位置。
在预测的眼睛中心与ground truth完全一致的情况下，我们只能观察到红点。从图中我们可以看出，虽然眼睛被眼睑和眼镜遮挡了一部分，HAC仍然可以准确的定位眼睛的中心。
在这里插入图片描述
然而，对于那些面部被错误地检测到或有强烈的反光遮挡了大部分眼睛的图像，HAC将无法准确定位。图3显示了一些被错误检测到的眼睛中心。图像的第一行显示了由于数据集的标注错误而导致的一些误判案例。第二行是由于眼镜的强烈反光、眼睛的闭合和错误的detec导致的一些定位错误。

在这里插入图片描述

3.Conclusion

3.1. 这篇文章存在哪些缺陷？

3.2. 作者关于这个课题的构思有哪几点？

作者提出了一种分层自适应卷积方法来准确快速地定位眼中心。提出了对虹膜的不同视角进行建模的新型分层内核，以提高定位精度。卷积运算大大降低了计算成本，并使算法可以集成到实时应用程序中。高精度和低组合成本特性使HAC成为常见的人机交互场景中眼中心定位的理想解决方案.

HAC被证明在两个最常用的眼中心定位数据集上均取得了巨大的性能提升，涵盖了低分辨率条件和高分辨率实验室环境。未来的方向将集中在更实际的人机交互场景中探索其性能。

john_bh

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Accurate Eye Center Localization via Hierarchical Adaptive Convolution

转载请注明作者和出处： http://blog.csdn.net/john_bh/论文:http://bmvc2018.org/contents/papers/1112.pdf作者及团队：Haibin Cai & Bangli Liu & Zhaojie Ju会议及时间：BMVC(british machine vision conference) 2018Code:ht...
复制链接

扫一扫

专栏目录