L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments
目前,视线追踪技术有以下应用平台:
- 电脑:主要用来人机交互——计算机通信和文本输入(比鼠标更有效率,而且更适合残障人士使用)
- 电视:选择和导航菜单和切换频道
- 头戴设备:应用于用户注意、认知研究、精神分析;或者是VR的局部渲染,如果- - 能够通过头盔内置摄像头估计人的视线方向,则可以对场景做局部精细渲染,即仅对人视线范围内的场景精细渲染,从而大大降低硬件成本。
- 汽车装备:
检测驾驶员是否疲劳驾驶以及注意力是否集中
。 - 手持设备:亮度、音量调节等人机交互功能。
参考博客:
视线追踪是在各种应用中都有使用比如人机交互和虚拟现实。最近,卷积神经网络(CNN)方法在预测视线方向方面取得了显著进展。然而,户外的视线追踪的仍然是一个具有挑战性的问题,由于独有的眼睛外观,光照条件,和头部姿势和视线注视方向的多样性。
在本项目中,我们提出了一个基于cnn的模型来预测视线注视的方向
我们建议分别回归每个注视角度,以提高每个角度的预测精度,这将提高整体的凝视能力。此外,我们使用两个相同的损失,每个角度一个,以改善并增加网络学习的泛化性。我们评估我们的模型使用了两个流行的数据集,这些数据集是用不受约束的设置收集的。我们提出的模型实现了先进的3.92◦的精度和10.41◦对MPIIGaze和Gaze360数据集。
原先是多任务的方式,准确度不够,多种损失合并在一起,很难使得各方训练都达到满意。
,改进了使用了多重损失估计3D 视线追踪,使用并行的两个全连接层分别预测yaw角
和pitch角
,并且对两个角度使用了独立的损失。每个损失包括了bin
分类和回归,使用softmax和交叉熵估计gaze 角度(L2+交叉熵)
.
视线追踪主要有两种方式实现:1. 常规的 和CNN based方法
:
- 常规:使用回归的方式,构建特定与视线估计的映射关系,比如adaptive linear regression and gaussian process regression
对于变化幅度不大的视线效果,但视线变化幅度比较大,效果就比较差
- CNN: CNN在视线和图像之间构建非线性映射关系
损失函数
大部分都是使用L2
损失估计视线方向的yaw
和pitch
角,我们对两个gaze角度提出了两种独立的损失函数,每种损失函数包括交叉熵损失
和均方差损失
,根据估计的softmax 分类bin的概率,去计算gaze bin的期望值,利用该方法细粒度的优化。然后利用与真实的ground truth的均方误差提高输出的预测精度。
网络架构
根据提出的分类和回归损失,我们构建了一个简单的网络(L2CS-Net),将识别到的人脸图片feed 到resnet50 backbone中,对网络特征进行初步提取。相对于之前在一个网络中回归gaze的yaw 和pich角度,我们提出每个角独立使用一个全连接网络。
这两个全连接层共享一个backbone提取的特征。同时我们为全连接层的每个分支分别定义了损失函数。