6DFLRNet:基于面部关键点和回归的头部姿态估计的6D旋转表示
头部姿态估计方法通常可分为两类:基于模型和基于外观。基于模型的方法依赖于面部关键点进行三维重建,旨在实现高精度的结果。然而,这种方法在很大程度上依赖于这些关键点的准确性。基于外观的方法以图像作为输入,利用特征提取和计算生成结果。虽然基于外观的方法具有更强的鲁棒性,但其准确性不及前者。在本文中,提出了一种新的有效的混合方法。这种混合方法结合了两种方法的优势。与传统的基于模型的方法不同,所提出的方法将2D图像中的面部关键点视为神经网络输入序列,然后通过神经网络回归获得用户的头部姿态估计结果。所提出的方法通过使用旋转矩阵表示解决了模糊旋转标签问题,引入了6D旋转矩阵表示作为旋转矩阵的中间状态,以实现有效的直接回归。引入面部处理增强了模型在跨数据集场景中的鲁棒性。所提出的方法基于不精确的人脸识别和简化模型取得了显著的结果。该方法可以分为三个部分。首先,所提出的方法对输入图像进行面部处理;其次,该方法检测面部关键点;最后,它将这些面部关键点转换为序列,并通过回归获得头部姿态的6D旋转表示。在公开可用的BIWI、PRIMA和DrivFace数据集上进行的大量实验证明了这种方法的功能,并表现出优于其他最先进方法的性能。与其他方法相比,该方法在整个数据集上表现至少提高了10%的平均性能。
图 1:6DFLRNet的架构。
图 2:使用面部处理和不使用面部处理获得的结果对比。 (a) 没有面部处理,直接输入原始图像。 (b) 使用面部处理然后输入面部处理后的图像。
图 3:基于卷积神经网络(CNN)的面部关键点提取器的架构[10]。