输入:一张带有人脸的普通图片。
1.face patch
这个步骤很简单,就是将原始图进行截图,使得人脸的面积尽可能大
2. face and facial landmark detection
依托已经比较成熟的人脸分割的技术,可以得到face的mask与landmark,landmark会标出人眼、鼻子等部分的mask
3.3D morphable model
根据face的mask和landmask可以通过3D morphable model预测出头部的姿态,结合相机的参数就可以进行归一化。
4.更多细节
当然相机的参数是默认不知道的,故采样一种虚拟摄像机。
虚拟相机焦距为960mm,归一化距离为300mm,即焦距数值为960/300,cropped。
face patch为448*448。
人脸的中心为两鼻翼与两外眼角的中心点。
参考文献:ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head Pose and Gaze Variation