计算机视觉中头部姿态估计的研究综述--Head Pose Estimation in Computer Vision - A Survey

最新推荐文章于 2024-04-21 12:12:13 发布

coder_ycy

最新推荐文章于 2024-04-21 12:12:13 发布

阅读量2.3w

点赞数 7

分类专栏：外文翻译hibernate 文章标签：计算机视觉 ieee 解决方案毕业设计

外文翻译hibernate 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

计算机视觉中头部姿态估计的研究综述
埃里克.莫非，IEEE的初级会员默罕马努拜特里维迪，IEEE高级会员

摘要---让计算机视觉系统作为一个普通人拥有识别另一个人的头部姿势的能力这一想法的提出，对于计算机视觉系统来说一个独特的挑战。比较一直以来以面部相关的视觉研究为焦点的面部检测和识别，身份不变的头部姿势估计少了严格的评估系统或通用的解决方案。这篇论文里，在头部姿势估计中，我们讨论了已有的困难，并提出一个有组织的调查描述这个领域的演变。我们着重讨论了每种方法的优点和缺点，并且尝试了最具创新和最有特征的90跨度，有关主题的论文已经出版。我们比较这些系统通过将重点放在他们粗略和精确的估计头部姿势的能力上，着重突出适合无约束环境的方法。

索引词---头部姿态评估，人机交互，姿势分析，面部领域标识，面部分析

I. 引言

从幼年起，人们就展示了能够快速和毫不费力的推断一个人头部的定位和运动，从而允许一个人来推断附近其他人的意图和理解的一个重要的非语言交流方式。轻而易举完成这个任务掩盖了十几年充满挑战的计算体系问题的难点。在计算机视觉的背景下，头部姿势估计是一个从数码图像中来推断人类头部定位的过程。他需要一系列处理步骤去转换成一个基于像素的一个头部引申到一个更高等级的方向概念的表现形式。像其他面部的视觉处理步骤，一个理想的头部姿势估计器必须表现出对各种图像变化因素的不变性。这些因素包括相机畸变的物理现象，射影几何，多源非朗伯照明，以及生物表象，面部表情，和现场的配件，像眼镜和帽子。
尽管它看起来像一个视觉任务的一个明确规范，头部姿势估计有多种解释。在粗略的层面上，头部姿态估计的适用于算法确定一个头在离散方向中的哪一个方向上，例如，正面与左/右剖面视图。在精确层面上，一个头部姿势估计可能是一个连续测量角度跨多个自由度（DOF）。一个系统只有一个单独的自由度，可能从左到右移动仍然是一个头部姿态估计器，更复杂的方法估计一个全三维头部方向和位置，当纳入额外的自由度包括面部肌肉和下颌的运动。
在计算机视觉的背景下，头部姿势估计最普通的解释是推断一个人的头部相关相机的视角的能力。更严格的说，头部姿态估计是推断头部方向的能力相对于一个全局坐标系而言的，但这种微妙的差异需要相机内部撤销从透视变形中的感知偏差的参数的知识。头的运动范围对于一个普通成年男性包括矢状面弯曲和扩展（即脖子的向前到向后运动）从-60.4°到69.6°，额横向弯曲（即脖子从右到左弯曲）从 -40.9°到36.3°，和水平轴旋转（即头从右到左旋转）从-79.8°到75.3°[26]。肌肉旋转的组合和相对方位是一个通常被忽略的歧义（例如，一个侧面的头看起来并不完全相同，当摄像机从侧面的视角相比当摄像机的视角从前面和头侧面）。尽管有这个问题，通常认为人体头部可以建模为一个无实体的刚体对象。根据这种假设，在姿势上人类的头部被限制为3个自由度，其特征分别是俯仰，坡度和偏航角在图一中体现。
头部姿势估计是与视觉注视估计有内在联系的，即，表征能力的方向和重点是人的眼睛。本身，头部姿态提供一个粗略的目光指示的情况下，当人眼不可见时（像低分辨率的图像，或眼睛上有像太阳镜的遮挡物的存在）。当眼睛是可见的时候，头部姿势成为了一个准确预测视线方向的需求。生理研究表明，人的目光预测来自头部和眼睛的方向的两者的组合[59]。关于头部定位的不同通过数字构成特定眼睛方向的图片，作者建立了一个观察者的目光的解释是在目标的头部的倾斜方向。
在图2中十九世纪的这幅画的表明，正是对这个图像例子的最生动体现。[134]。在这幅草图中，一个头部的两个视角被呈现在不同的方向，但是对于两双眼睛都是相同的配置。注视着这幅图像，很明显感知视线方向对同步姿势有很大程度上的影响。如果头部完全取消，只要眼睛依然存在，感知方向是相似于头部在正面的配置的。
在此基础上，观察与我们的信念，即人类视线估计适当的处理视觉信息的能力，我们假设一个被动的相机传感器无照明条件下先验知识的情况下没有足够的信息来准确地估计一个同样没有头部定位知识的眼睛的方向定位。为了支持这一陈述，考虑可见的巩膜（即，白色的区域），眼睛的周围。在高度对比下的巩膜和虹膜显而易见，并且可能推进视觉感知的进化[54]。一个眼睛的方向模型用巩膜虹膜提示将需要一个头部姿势估计去阐述视线方向，因此任何头部运动引入了一个视线移动将不会影响巩膜。因此，计算估计在任何配置下的人类视线，尽享一个视线跟踪应该提供一个头部姿势估计系统。
这篇论文展示了头部姿势估计方法和系统的调查，被刊登已经超过14年。这项工作进行是都有着共同的主题和趋势潮流，并且讨论每种方法所固有的缺点和优点。以往的文献调查一般是人体运动[76,77]，人脸检测[41，143]，人脸识别[149]，影响识别[25]。在这篇论文中，我们提出了一个类似的头部姿态估计的方法。
这篇论文的结构如下：章节二描述了头部姿势估计方法的依据；章节三包含一个有关头部姿势估计方法的相关调查；章节四讨论了标注数据工具和数据配置可用于我们的调查评价和比较了所描述系统根据公布的结果和普遍适用性；章节五进行了总结和结束语。

这里写图片描述
II. 依据
人们用他们的头部的定位去传递丰富的人际信息。例如，一个人将指出他的头部方向去表明他的对话对象。同样在对话中，头部方向是一个非语言的公示，提示倾听者什么时候去转换角色和开始说话。在一个对话中头部的移动作为一个手势的形式有着重要的作用。人们点头去表明他们理解所说的话，并且他们用额外的手势去表明异议，疑惑，思考和同意。用手指指着夸张的头部运动是同义的，并且他们是指向某人去观察一个特殊的位置这一个传统的方式。
除了被故意隐藏的头部手势信息，还有很多方法可以通过观察推断出一个人的头部方向。例如，快速的头部运动可能是一个惊喜或者警告。对于人，这一般会引发自我答复来自一个观察者，这很难忽略矛盾的听觉刺激的存在[58]。其他的重要观察方法能够从头部姿势估计中奖励关注的视觉焦点。如果两个人的焦点聚焦于彼此，有时也称为相互凝视，这通常是一个表明两个人讨论的迹象。相互凝视，也可以作为一个意识的迹象。例如，行人在过人行通道前，要等待汽车司机看到他并停下车。观察一个人头部方向也能够提供关于环境的信息。如果一个人移动他的头朝向一个特殊的方向，很可能使物体运动的方向。六个月大的孩子利用这一被称作视觉跟踪的性质，通过看向照顾者作为对环境的视线过滤[79]。
像语音识别已经成为广泛使用的技术，头部姿态估计可能会成为一个现成的工具，联通人类和电脑间的差距。
III. 头部姿态估计方法
这既是一个挑战并且我们的期望是去组织许多的方法对于头部姿态估计延伸成为无处不在分类方法。我们曾考虑的是一个基本功能分类通过其操作域对每一个方法进行组织。这种方法将分离方法即从仅需要单目视频的系统中获取立体的深度信息。同样，它将用已隔离的方法，即需要从那些近场景人的头像来适应低分辨率下的远场景。另一个重要的考虑是每个系统所提供的自动化程度。一些系统自动地估计头部姿态，而其他系统认为具有挑战性的先决条件，比如必须提前知道脸部特征的定位。它并不总是清楚地去表明是否这些要求能够满足精确的视觉算法是可用的。
而不是一个功能分类，我们还安排了各系统的实施所强调的根本途径。这个机构允许我们讨论不同技术的演变，并且它能够使我们避免使用含糊不清的方法时所产生的超出其最初的功能边界。我们的进化分类学包括以下芭蕾描述的概念的处理办法已经用于估计头部姿态：
这里写图片描述
 外观模板方法将一个头部的新头像和一套拷贝（每个有着离散姿态的标志）为了找到最相似的视角。
 探测器阵列方法训练一系列的头部探测器，每个适应一个特殊姿势和指定一个离散姿势到探测器上，是给其最大的支持。
 非线性回归方法利用非线性回归的工具来开发一个功能性映射像头部姿态图像或特征数据测量。
 流形嵌入方法寻求连续低维流形模型的头部姿态的变化。新的图像可以嵌入到这些流形，然后使用嵌入式模板匹配或回归。
 柔性模型适合非刚体模型在图像平面每个个体的面部结构。头部姿态估计，从特征层的比较或从模型实例化参数。
 几何方法适用特征位置，如眼睛，嘴和鼻尖，从相对位置去确定姿态。
 跟踪方法恢复全球构成的变化，从观察到的视频帧之间的运动。
 混合方法将一个或多个上述这些方法来克服任何单一的方法固有的局限性。
表一提供了一个代表系统的上述每一类别的列表。在本节中，详细描述每个类别。每种方法的功能需求上提供的评论和每种设计选择的优点和缺点。

A. 外观模板方法
外观模板方法采用基于图像的匹配比较的度量标准的人的头部构成了一套相应的范例的标签。在最简单的执行中，查询图像给出了同样的姿势是分配给这些最相似的模板。一个例证被呈现在图三。一些典型的例子包括使用在多个图像归一化互相关决议[7]和均方误差(MSE)超过滑动窗口[91]。
外观模板有一些优势超过更多复杂的方法。这些模板能被延伸到更大在任何时间，允许系统去适应改变环境。另外，外观模板不需要消极训练的例子或人脸特征点。创建一个训练数据语料库，要求只能进行裁剪，头部姿态估计图像和提供注释。外观模板也都能很好地适用于高低分辨率的图像。
在外观模板上也有很多缺点。不使用插值方法，他们只能够估计离散的姿态位置。他们通常假设头部已经被检测出人脸，和定位误差能降低头部姿态估计的准确性。他们也可以遭受效率的关切，因为随着越来越多的模板添加到样例集，图像比较，必须计算的计算成本越高。提出了解决这两个问题之一是训练一组支持向量机（SVMs）进行检测和定位的脸，外观的模板，然后使用支持向量估计头部姿态[88,89]。
尽管有这些限制，外观模板最重要的问题是，他们按照错误的假设，即相似性的图像中的空间可以等同于在相似的姿势。考虑同一个人在轻微不同姿势的两张图像和两张不同人相同姿势的图像。在这种情况下，身份的影响比从图像中可以带来更多的不同姿势的变化，并会不适当地将该图像与模板匹配不正确的姿势。尽管这种影响可能会减少对于不同的姿势，目前仍没有保证对在这个体式上的相似域（例如，有脸轮廓图像可能更类似于一个左剖面图相比正面视图）。因此，即使是与每一个人带来一组离散均匀，在模板比较中，可导致高度的错误造成错误的估计。
为了减少成对相似性的影响问题，尝试了许多办法将不同的距离度量和图像转换，减少头部姿态估计误差。比如说，图像可与拉普拉斯-卷积滤波器[32]强调一些比较常见的面部轮廓，而去除一些身份特殊的纹理变化在不同的人。同样，图像可以是一个复杂的Gabor小波强调针对卷积特性，如垂直的线条，鼻子和嘴巴的水平方向[110,111]。这个复杂的卷积的大小还提供了一些不变性的转变，他可以大大减少出现错误引起的面部特征差异与人之间的位置。

B. 探测器阵列方法
许多方法对正脸的探测已经被引入在前十年[97,104,126]。给出这些成功的方法，这似乎是一个自然的延伸，估计头部姿态训练的多人脸检测器，每个具体的不同的离散构成。图四例证了这个方法。对二元分类器阵列，成功检测人脸，将指定头的姿势，如果没有两个分类器中的分歧。为探测器的连续输出，姿态能够被估计通过给探测器最大的支持。探测器阵列模板的外观相似，因为他们直接对图像补丁。而大量的个人模板图像相比，图像是对许多图像检测器的训练评价与监督学习算法。
探测器阵列的一个早期方法被用作三个支持向量机算法（SVMs）对于三个离散的偏离[47]。最近的一个系统的训练，五个FloatBoost分类器在远场景，多摄像机环境[146]。探测器阵列方法的一个优点是在一个单独的检测和定位步骤不是必需的，由于每个检测器还能够让头和非头之间的区别。同时检测和位姿估计方法可以采用探测器进行许多分区域的图像。另一项改进是，与外观的模板，探测器阵列使用的训练算法，学会忽略外观种类不符合姿态的变化。探测器阵列也适用于高低分辨率图像。
探测器阵列的方法也存在缺点。为了每个离散姿势训练许多的探测器是很繁重的。一个探测器阵列作为头检测器和姿态估计器，他也必须训练许多负面的非面对面的例子，这需要更多的训练数据。除此之外，可能是系统出现的问题作为探测器的数目增加了。如果是两个探测器的语调，姿势非常相似，一个图像是积极训练的实例必须是消极训练的另一个图像实例。当在正和负例子在外观上十分相似的时候，不清楚是否能够突出检测方法来学习到一个成功的模型。事实上，在实践中，这些系统已经被限制到一个自由度，只有不到12个探测器。此外，由于大多数的探测器输出的二进制，没有办法得到可靠的连续估计的结果，当多探测器同时分类正像的时候只允许粗略的头部姿态估计和创建含糊不清的图像。最后，由于计算探测器的数目线性增加的需求，因此很难执行大型数组实时系统。作为最后一个问题解决，有人建议，一个路由器的分类器，可以用来选定一个单一的后续探测器使用的位姿估计方法[103]。在这种情况下。路由器有效地确定姿态（即，说明这个是一个脸，什么是它的姿态？），并且随后探测器确认选择（即，这是通过路由器指定的一个脸的姿态吗？）在理论上，这种技术听上去很有前途，应当指出的是，他没有被证明摊位或偏航的变化，而是只在相机旋转面，第一采用基于神经网络的人脸检测器，后来与级联Adaboost探测器[53]。
这里写图片描述

C. 非线性回归方法
通过学习非线性函数的非线性回归方法估计姿态从图像空间映射到一个或多个构成的方向。图五提供了例证。这些方法的魅力是在有一套标签训练数据，一个模型能被建立，是对任何新数据样例提供了一个离散的或者连续的姿态估计。这些方法告诫，不是很清楚在多大程度上一个具体的回归工具能够去学习正确的映射。
高维的图像呈现了一个挑战对于一些回归工具。用支持向量回归（SVMs）已经成功的证明，如果数据的维度可以减少，例如与主成分分析（PCA）[64,65]，或局部梯度方向直方图[86]-后者提供更好的头部姿态估计的准确性。另外，如果面部特征的位置是预先知道，回归测试工具可用于在这些相对低维特征提取的数据点[70,78]。
头部姿态估计采用非线性回归的工具，神经网络是应用最广泛的文献。一个例子是多层感知器（MLP），由许多多层前馈中所定义的单元（例如，一层细胞构成的输入输出，为后续的层）[8,23]。感知器，可以反向传播训练，同时一种通过监督学习的向后误差的传播过程中的每个隐含层网络中的更新的权值和偏差。从头部的裁剪图片可以估计姿态，在不同的配置采用多层感知器。例如，提出了输出节点能够对应于离散的姿势，在这种情况下，一个高斯函数可以用来平滑的训练姿态说明附近姿态的相似性[10,106,148]。虽然这种方法很有效，它类似于探测器阵列和外观的模板，因为他只提供了一个离散的粗略位置估计。
一个多层感知器能够被训练对于理想的头部姿态估计超过一个连续的姿态范围。在这个配置下，网络有一个输出对每一个自由度，和激活输出成正比对应于其方向[108,115,117,129,130]。另外，一套有着单一输出节点多层感知器网络能被单独的训练对于每一个自由度。这种方法已用于从多个负责远场景相机在室内环境中，利用背景差分或彩色滤光片检测的面部区域和贝叶斯滤波融合和平滑估计每个摄像机[120,128-130]。
局部线性映射法（LLM）的另一种流行的神经网络由许多的线性映射[100]。构建网络，输入数据比较，以质心为每个地图和使用的学习样本权重矩阵。头部姿态估计需要一个最近邻搜索最近的质心，然后通过线性回归与对应的映射。这种方法还可以推广与差向量的降维方法[11]，以及Gabor小波分解[56]。
正如前面所提到的与SVR，可以培养神经网络的人脸特征位置数据。这种方法对联想神经网络进行了评价[33,34]。
神经网络方法的优点很多。这些系统是非常快的，只需要训练出现标记的面孔，工作在近场景和远场景图像，并给出了一些在实践中最精确的头部姿态估计（见章节五）。
这些方法的主要缺点是，他们从那不完善的头部定位中出现错误。作为一个建议的解决方法，卷积网络[62]，即通过显式的扩展的多层感知器建模的一些转变，规模和畸变不变性，可以用来降低这种误差来源[95,96]。

D. 流行嵌入方法
虽然头的图像可以被看做是一种高维空间数据样本，有内在的要少得多，唯独构成不同。对刚性头部模型，这可能是只有三个维度的定位和位置。所以可能认为，每个高位图像样本低维的连续流形上的允许的限制构成的变化。对于头部姿势估计，复印本必须被建模，并且嵌入到所需要的技术项目的一个新样本流行中去。这种低维嵌入能够被用于头部姿态估计与回归等技术在嵌入式空间或嵌入模板匹配。任何维数约减算法的嵌入流形可以被认为是一个尝试，但挑战在于创造一种算法，成功的恢复图像的头部姿态，而忽略了其他来源的变化。
两种最流行的降维技术，主成分分析（PCA）及其非线性的版本KPCA，从一组数据样本中发现主要模式的变化[23]。用主成分分析可以估计头部姿态，例如，通过图像投影到PCA子空间和比较，结果一套嵌入式模板[75]。他已经表明，在低维空间的相似性比Gabor小波预处理的外向模板更有可能与姿态相似性有关系。不过PCA和KPCA都是在头部姿态估计技术下的[136]。除了线性PCA标准的局限性，不能充分代表的姿态变化引起的非线性图像的变化，这些方法是无监督的技术，通常在训练中，不会合并成标签。作为一个结果，也无法保证将与姿态变化的主要成分，而不是外观的变化。也许，他们将对应于这两个。
为了减少这些问题，出现分裂所造成的信息可以被解耦的训练数据划分为组，每个共享相同的离散头部姿态。然后，对每个组PCA和KPCA可以用于生成一个单独的投影矩阵。这些具体姿态的特征空间，或者姿态特征空间，每个代表的主要外观变化，并提供一个模式分解是独立的姿态变化。由归一化的图像，可以估计头部姿态，并预测了其拓扑中的每一个姿态，从而找到具有最高的投影能量的姿势[114]。另外，嵌入的样品可作输入到分类器集，如支持多类向量机[6
3]。作为证明对KPCA的限制，可是，他已经表明，通过跳过二进制的KPCA的投影完全使用局部Gabor模式，一个可以极大地提高了一套姿态估计得多类支持向量机[69]。特征空间的姿态有一个不幸的副作用。由于失去了头部姿态估计很好的能力，比如探测器阵列，估计是从一组离散的测量。如果只有粗略的头部姿态估计是被期望的，最好采用多类线性判别分析（LDA）或kernelized版本，KLDA[23]因为这些技术可以用于查找数据的变化模式的最佳离散构成的类之间的差异账户里[15,136]。
其他的流形嵌入方法表明了更多的对于头部姿态估计得允诺。这些包括等距特征映射（Isoamp）[101,119]，局部线性嵌入（LLE）[102]，和拉普拉斯特征映射（LE）[6]。估计头部姿态与这些技术，必须有嵌入了一个新的数据样本到一个现有的程序流形。雷特切夫等[101]。描述了这样一个Isomap流形的一个程序，但是，对于嵌入在LLE样本外和LE流形没有显式解。对于这些方法，一种方法必须用一种近似方法去嵌入，如广义回归神经网络[4]。另外，LLE和可线性近似所取代，局部嵌入式分析（lea）[27]和局部保持投影（LPP）[39]。到目前为止，所提到的还有一些流形嵌入方法存在弱点。LDA和KLDA除外，这些技术在一种无监督的方式下运作，而忽略了在训练中可能提供的标签的姿势。作为一个结果，他们的倾向是对于身份以及姿态建立流形[4]。作为这个问题的一个解决方案，身份可以通过创建一个单独的流形的姿势分开，每门学科都可以排列在一起。比如说，高维椭圆是一种能够比较适合Isomap流形的一组数据，然后用规范形[45]。特征空间映射到嵌入式空间，非线性径向基数函数进行插值。然而，即使这种方法也有它的弱点，因为外观变化可能是由于身份和姿态以外的其他因素，如照明。对于更一般的解决方案，而不是让每一个单独的流形的变化，可以创建一个单一的流形距离度量的使用是偏向小的样本构成的差异[4]。这一变化表明，Isomap、LLE和LE能改善头部姿态估计算法的性能。
另一个困难要考虑的是异质性的训练数据是很常见的，在许多现实世界的训练场景。为了模拟身份，综合人才是需要去训练一个流形，但是这往往是不可能得到一个从每个个体构成的规则采样法。相反，每个姿势的训练图像包括不相交集合的人从一些连续采样测量装置。对每个主体拟议的问题补救办法是创建个性化的子流形并用它们来绘制虚拟的三维空间离散的体式之间的失踪问题[142]。这项工作，介绍了同步的子流形嵌入（SSE），一个线性嵌入创建投影矩阵的每个样本之间最小的距离和其最近的邻居（基于重构的姿势标签），虽然从同一主题的样本之间的距离最大化。
所有的流形嵌入在这一节中所描述的技术是线性或非线性方法。线性嵌入技术的优点可用矩阵乘法，但他们缺乏具有代表性的非线性技术的能力。作为这些方法之间中间地带，全球头部姿态流形可近似为一组局部线性流形。对头部姿态估计用PCA、LDA、和LPP已经被证明[66]。

E. 柔性模型
以前作为一种信号检测方法，考虑头部姿态估计问题，图像的像素映射到矩形区域到一个特定的构成取向。灵活的模式，采取不同的方法。与这些技术，非刚体模型是适合的图像，它符合每个人的面部结构。此外，构成标签，这些方法需要的训练数据和附加说明的面部特征，但它使他们在特征层进行比较，而不是在全球化外观的水平。在图七中进行概念的说明。
从章节三-A中回忆起外观模型方法。为了估计姿态，新的想法是每个模板和基于像素的覆盖度量被用来比较的照片。即使完美的注册匹配，可是，两个不同的人的形象将难以精确对齐，由于面部特征定位人之间各不相同。现在，考虑一个基于可变形模板的图的局部特征点（角点，鼻子，嘴等）。为了训练这个系统，在每个训练图像人脸特征位置是手动标记，和局部特征描述符合，如Gabor-jets,可以在每个位置提取。从各种人的观点中这些特征能被提取，并且通过探测器在每个节点的分支额外的不变式能够被实现。这种表示被称为弹性束图[57]，具有描述能力的非刚性或可变形物体。为了比较一个新面部图像的一个分支图形，这个图形被放置在图像之上，并彻底或反复变形，发现在每个图中节点之间的最小距离特征定位上。这个过程被称作弹性图匹配（EGM）。对于头部姿势估计，对于每个离散的姿势，不同的聚束图创建的每个离散的姿势，并且这些中的每个都与新的头部观点相比较。束图，指定一个离散的最大相似性构成的头[55,136]。由于EGM使用位于特定的面部特征点，有明显少于间受试者内部的差异比与未联结点。这使得它更容易将等同于在相似模型之间的相似性构成。此方法的缺点是位姿估计是离散的，需要很多很多图，以获得良好的头部姿态估计。不幸的是许多束图相比，各有许多变形，计算相比，头部姿态估计技术是最贵的。
另一个灵活的模式已经发展为头部姿态估计是主动外观模型（AAM）[19]，学习的主要模式从二维的角度人脸形状和纹理的变化。考虑了一套M的具体面部点，（可能是跟眼角，耳塞，鼻孔，下巴和嘴巴）。在图像中各点的二维坐标，然后这些点数可以令面部特征连接成一个长度为2M的向量。如果这些特征向量，计算了许多的面孔，跨越不同的个人和其中所有的构成特点，可以发现，他们可以用来发现面部形状变化。使用这个数据降维技术,如PCA结果再主动形状模型（ASM）[17]，能够表现形态变化的主要模式。仅仅通过查看最大的主成分，可以发现在数据相对应的方向变化的俯仰和偏航[60,61]。如果面部特征的位置是已知的一种新的图像，构成可能是估计子空间投影的形状特征位置和评估负责的姿势。这可以通过增强ASM与纹理信息进行迭代搜索，以适应人脸形状的新形象。早期的作品提取的局部灰度剖面在各特征点采用了一种贪婪的搜索匹配特征点[60,61]。后来，联合介绍了AAM的形状和纹理[19]。
为了去建立一个AAM，首先一个ASM必须从一套训练数据中被生成出来。接下来，人脸图像必须被扭曲，使得平均形状的特征点匹配。扭曲的图片应该被归一化，然后用于构建一个形状无关的纹理模型，（原来是一个基于纹理的PCA子空间）。最终，学习形状和纹理的关系，并用来产生组合的外观（形状和纹理）模型[24]。给出一个脸的形状，粗糙的初始化AAM的可迭代的比较适合一种新的人脸图像呈现的外观模型观测图像和调整模型参数以最小化距离这两个图像之间的措施。一旦该模型具有收敛的特征的位置，头部姿态估计，可以得到外观参数映射到一个姿势估计，一个简单的例子是，偏行与线性回归估计[18]。
成立以来，AAMs走过了漫长的道路。在反向合成图像对齐算法的拟合方法的基础上，克服了线性假设如何出现误差与梯度下降搜索，并允许更准确的实时收敛[72]。被跟踪的AAM在视频序列也可以用来估计三维形态，模式，他随后可以被重新约束二维的AAM拟合过程[140]。据悉，一旦三维约束，AAM可以用来直接估计三维头部方向。或者，因为AAM的形状点有一对一的对应关系，从运动（SFM）算法可用于估计结构的三维形状的脸，以及相对位姿两个视频帧之间的差异[35]。进一步的工作，与匹配有介绍实用程序的修改，扩大驱动头部姿态估计[3]，以及多摄像机[44]。
它们的头定位误差有良好的不变性，自适应的图像和面部特征上找到准确的位置。这允许精确和准确的头部姿态估计。他们的主要限制是，所有的面部特征都必须位于每个图像帧。在实践中，这些方法仅限于头部姿态双眼的外部的角落的方向是可见的。它也不是很明显，远场景的AAM拟合算法可以成功地操作与低分辨率人脸图像的姿态估计。
这里写图片描述
F. 几何方法

这之间存在最严重的分歧是计算机视觉位姿估计的心理物理学试验方法和结果。而前者主要集中于外观为基础的解决办法，后者认为，人类感知的头部姿态依靠的线索，例如鼻子的角度偏差和偏差的头从双侧对称性[133]。这些影响和其他因素，就像脸的位置在头部轮廓的关系，头部姿态的强烈影响人的感知，表明这些是极为突出的头走向的线索。头部姿态估计的几何方法使用头部形状和局部特征的估计精确的配置构成，如图8。这些方法非常有趣，因为他们可以直接利用已知影响人类头部姿态估计的性能。
早期的对策重点在于从一组估算人脸特征的位置。它假定这些特性是已知的，并构成可以直接从这些点的配置。面部特征可以利用配置在许多方面估计的姿势。采用五种面部点（每只眼睛外面的角落，嘴角外的，和面部均匀的鼻子）的中点之间的一条线连接轴时发现的眼睛和口的中点[30]。假设这些面部点之间的固定比例和固定长度的鼻子，面部方向，可确定下，从三位的视角几何角度的鼻子。或者，同样的五个点，可以用于从正常的平米的头部姿态，可以发现从平面些对称性和粗略估计的鼻子的位置[30]。另一种姿态估计可以获得一组不同的5点（每只眼睛的内层及外层的角和鼻尖）[42]。在假定所有四个眼睛被认为是共点，偏航可以从看得见的左眼和右眼之间的大小差异由于从已知的投影畸变的相机参数。罗伊可以简单地从地平线这条线的角度发现。倾斜是由鼻尖和视线之间的一个人体模型。不像前两种方法，然而这项技术并没有提出一个解决方案，提高了位姿估计近正面的看法。这些配置被称为“退行性的角度”，因为他们需要很高的精度精确地估计头部姿态用这个模型。另一种方法是最近提出利用内部和外部的角落的每只眼睛和嘴角，它是自动在图像中检测的[132]。观察是在眼角外，眼角内和嘴巴之间三条平行的线。任何观察的偏差是从在平行平面图象的透视变形形成的。消失点(即，这些线会在图像平面相交的地方)可以用最小二乘法计算在确定解决三系减少。这一点可用来估计三维方向的平行线，如果他们的长度比例是已知的，它可以用来估计每个特征点的三维位置，如果实际路线长度是众所周知的。作为这个身份的资料有所不同，与高斯混合模型的EM算法能够适应每个人的面部参数反投影误差的最小化。这种方法的缺点是构成只能是估计如果到附近的姿势是一个正面的角度去看所有的面部线条。
几何方法是最快和最简单的。仅用一些面部特征，就可以获得一个较好的头部姿态估计。显而易见的困难在于检测的特点，具有较高的精密度和准确度，但更微妙的挑战来自于处理外围或失踪，特征检测。远场景图像在这方面是有问题的，因为决议可能很难，或根本不可能精确的确定特征的位置。另外，经常出现的情况出现永久的面部模糊标志，就像一个人戴着眼镜，模糊了他的眼睛的角落。考虑到面部几何方法依赖于准确的检测点，从整个面部，他们通常更加敏感，比基于表象的方法，及利用信息闭塞。
值得注意的是，即使是很简单的几何线索可用于估计头部姿态。拟合椭圆的梯度，脸的轮廓和颜色提供了一种粗略的对单自由度位姿估计数[20]。近额的面孔，一张脸的偏航通过创建可以可靠的估计眼睛和嘴之间的一个三角形，发现其从一个纯粹的等腰三角形偏差[90]。头周围多摄像机，偏航，可以估计为导向，用最接近皮肤的颜色[12]，或肤色模板[13]。同样，该方法定位人脸，可以有效地估算登记的位置面对相对分割的面部[141]。

G. 跟踪方法
这里写图片描述
由于相关跟踪方法操作的连续帧之间的运动视频序列，如图九所示。时空的连续性和平滑的运动约束，使用方便，随着时间的推移视觉上吸引人的姿态估计。这些系统通常表现出高度的准确性（见章节四），但从已知的头部位置初始化是必要的。通常，主体必须保持正面姿势之前，系统已经启动，无论什么时候跟踪丢失必须重新初始化。作为一个结果，方法常常依赖于手动初始化或相机视图，使得主体的中立的头部姿态是前瞻性的，很容易重新初始化一个正面人脸检测器。
跟踪方法能在自下而上的方式运作，从一帧一帧获取低等级面部标志。早期工作被认为是六个特征点（跟踪相关的窗口），从弱透视几何确定了头部的移动。一种更加复杂的方法是假设人脸是在一个正交空间的平面上。在这种情况下，两个自由度可回收利用加权最小二乘法确定最佳仿射变换的任何两个框架之间。难题被缩减成一个模糊的旋转，它能提供头部的方向[145]。此前有两种方法使用传统的最小二乘法拟合自动选择面下点仿射几何[73]和弱透视几何[121]。一个全局SSD跟踪器粗鲁的扫描整个脸之后，作为区域特征，在这个区域内进行跟踪。最近，这些方法已经演变成更为复杂的技术与稳健的SIFT特征点的匹配[68]描述符，并使用三维人脸形状的先验知识[93,144]或立体声和基于RANSAC匹配[147]，恢复全面的透视投影下的姿势变化。
通过寻找模型最好的转化方法说明头部的移动来使跟踪能够有选择的采用基于模型的方法。头部姿态估计，他是常见的使用刚性头部三维模型。为了估计头部姿态，只是需要找到旋转和模型的转化最适合每个新的基于图像的观察。这可以通过头部的纹理映射的图像到三维模型。在最简单的执行上，这能够手工完成，然后通过搜索可以估计头部姿态，通过离散变换集，可以找到一个新的帧之间的外观差异最小化和模型[98]。这可以改进连续姿态测量使用梯度下降搜索[107]，并进一步完善与光流优化指南[71]。而且，因为全局的外观模型，可以承受动态照明时，介绍了影响，如部分遮蔽，相似性度量可以采用一组局部区域的平均数[138]。
通常情况下，合理的准确度，可以用仿射变换（例如，钻机用立体相机，一个可以找到相对位姿误差的最小平移和旋转的变化，在最小二乘法意义上的两个灰度强度和深度[37,80]）。一个类似的方法，提出了用飞行时间传感器的二维恒定运动领域和从光流中感知深度[150]。
跟踪方法的主要优点是其高精度的头部跟踪能力，发现小视频帧之间构成的变化。在这个跟踪配置中，这些方法由于其他头部姿态估计方法（见章节四）。一种基于模型的跟踪额外的优势是能够动态的构建一个个性化的原型的人的头上。这使得这些方法，以避免出现变化的不利影响。
困难的事跟踪方法必要的准确的位置和姿态的初始化生成一个新的模型或适应现有的模型。没有一个单独的定位和头部姿态估计步骤，这些方法只能用来发现相关的帧间变换。在这种操作模式下，这些方法不是在绝对意义上的估计头部姿态，而是跟踪头部运动。然而，对于某些应用程序，只是相对的运动是必要的。一些例子包括跟踪头部与手动初始化圆柱模型和递推最小二乘法优化[14]，或通过跟踪与可变性拟人化的3D模型[21]。自动跟踪方法可以初始化，使用动态模板时重新创建模型的头部姿态估计是附近的原始视图[139]。
这些动态模型跟踪方法，可改善外观基于粒子滤波[38,51]，将头的动力学有关的先验信息。在经典粒子滤波，对象的观察状态是，观察每个时间段被认为是噪声；最优轨迹可以发现，运动后验概率最大化，给出了观测，利用模拟一组样本。基于粒子滤波外观，而不是在观察头部的噪声样本的绝对位置和方向，在每个时间步获得头部的图像。观测噪声可以忽略不计，并且难点在于从图像中像素的推理对象的状态。这种表现为基础的滤波问题可以解决类似的解释。一套姿态样本集被生成一个动态模型和用于呈现不同的转换模型的观点。每个虚拟映像，可以直接观察到的图像相比，和这些相比，可以用来更新粒子滤波的权重。该技术可准确，实时跟踪头部姿态在各种环境中，包括近场景视频[22]低分辨率视频的自适应PCA子空间[124]，近场景立体仿射近似[94]，和白天和夜间驾驶的视频与双线性状态模型[85]。

H. 混合方法
混合方法结合的一个或多个上述方法估计姿势，如图十所示。这些系统的设计可以克服的局限性，在任何特定的头部姿态类别中。一个共同的实施例子的补充与跟踪系统的静压头姿态估计方法。静态系统负责初始化和跟踪系统负责维持造成对时间的估计数。如果跟踪器开始漂移，静态系统可以初始化跟踪。本方法精度高纯无初始化和飘移跟踪方法的局限性。许多成功的组合，提出了混合自动几何与点跟踪方法[40,43,46,52,87]，嵌入式模板匹配与光流PCA[151]，主成分分析的嵌入式模板匹配与连续密度马尔科夫模型[49]，PCA嵌入模板的关键帧灰度和立体匹配跟踪深度恒常性[81]，和颜色和纹理外观的模板与基于图像的粒子滤波方法[1]。
这些作品的一些拓展也已经提交了。通过莫伦西等[81]，这个工作基于扩展的姿态出发从一个单一的综合生成的新模板初始化[82]。BA和Obodez[1]后来扩大和改进他们的技术多照相机和远场景成像[2]。
混合系统，也可以使用两个或多个独立的技术和融合的估计，每个系统到一个单一的结果。在这种情况下，来自多个系统的信息线索，共同提高估计精确度。具体的例子包括外观模板匹配和几何线索（也与粒子滤波）[109]和流形嵌入估计精制弹性图匹配[136,137]。
IV. 头部姿势估计比较
A. 地面实况数据集
评价和比较头部姿态评估系统，准确的方法是必要的，以测量评价的一套地面实况数据。通常情况下，地面数据更是必不可少的任何头部姿态估计方法。下面的列表描述了最常见的方法，用于捕获这个地面实况数据，在一个大致的顺序下，从不太准确（粗略）到很准确（细致）。
定向建议 - 一组标记放置在一个房间里每一个人的主体性是离散的地点要求指向他的头朝向每一个方位，当相机捕捉离散图像的每个位置[33]。该方法是一个缺乏地面实况的资源。首先，它假定每个主体的头在三维空间是完全相同的物理位置，这样，对应于同一头方向相同的方向。其次，最重要的是，它假设一个人能够准确指出对象的头部。不幸的是，这是一个主观的任务使得人往往表现相当差。例如，主观错误中可以看到广泛使用的Pointing`04数据集[125]。
激光指针方向建议 – 这种方法是相通的方向的建议，但贴上激光指针到对象的头部[100]。这允许在房间里除确定离散位置较高的精度，从视觉反馈但它仍然认为，受试者头位于同一空间中的点，这样相当于头部姿态的方向。在实践中，这很难保证，因为人们有一种倾向去移动他们的头部位置在数据捕捉中。
手工注释 – 人脸图像视为由指定姿态标签的人基于他自己姿势的感知。为提出一种粗糙集在1 自由度，这可能是足够了，但是对细致的头部姿态估计是不恰当的。
相机阵列 – 在这种方法中，在众所周知的立场，同时捕获多个摄像机从不同角度的人脸图像。如果顾虑以确保每个主体在捕获过程中的头是在同一地点的，该方法提供了一种集高精度地面实况。缺点是这只适用于近场图像，并且无法应用于精细的姿势或真实世界的视频。
磁传感器 – 磁传感器，就像Polhemus FastTrak或Ascension Flock of Bird，工作靠发射和测量一个磁场区域。该传感器可附于某一主题的头部和用来确定头的位置和方向的角度。因为这些客观的姿态估计是相对负担的起的，他们一直在最广泛地使用客观的地面实况的资源。这些产品提供了一个理论精度小于1°，但从我们的个人经验，我们发现它们是极易受到噪声和存在环境中的，即使是最小的金属量。环境中的数据被收集受到了严重的限制，在某些应用场合，如在汽车中的头部姿态估计，因此，这些传感器是不可能的。
惯性传感器 – 惯性传感器利用加速度计，陀螺仪或其他动作感应设备，往往加上卡尔曼滤波降低噪声。最便宜的惯性传感器，例如mindflux inertiacube2，不合格的位置，但只有3自由度方向。磁传感器的优势是没有类似的金属的干扰而达到理论精度。头部姿势估计，在数据捕获期间，传感器可以贴在对象的头部[81]。
光学运动捕捉系统 – 光学运动捕捉系统是强大的，昂贵的部署最常用的是在专业电影截图中表现身体的运动。通常，校对阵列近红外相机使用多视点立体和软件算法跟踪反射或主动标记附加到的人。头部姿势估计，这些标记可以贴在主体头部[86]和用于跟踪的绝对位置和方向。光学运动捕捉系统的一些例子包括Vicon MX和Phoenix Technologies Visualeyez。
用这些技术，可以收集各种数据的范围，准确性，可用性和普及性。表五包含了一个突出的收藏的描述。

B. 公布结果的比较
绝对平均俯仰角误差，坡度和偏航是一种常见的信息作为头部姿态评估系统评价标准。这个指标可用于评估系统对粗略或细致的数据集构成的标签，他提供了一个单一的统计，以给出洞察力深入到竞争方法的准确性。在很多论文里都讨论了使用这个指标的评价。报告的结果，对所述的数据集是粗略的和细致的在表二和表三分别给出。粗略的头姿态估计，它是常见的分类误差的评价方法（即，通常如何在具体的离散图像姿态角用正确的姿势是正确的标记标签）。虽然证明了系统的有效性，结果依赖于离散的数目构成为一个更具挑战的构成(离散数据集)。此外，这个表示给出了每个错误分类的特点（小的信息是附近的姿势选择，或者是一个广泛的不正确的姿势估计分类？）。不管这些限制。分类错误常用来评价头部姿态估计方法。在表二的报告说，随着这类错误的结果的提出了在所述每个数据集是离散数量。
从这些表中，一系列的数据能被得出。在Pointing ’04数据集中，MLP神经网络的非线性回归[117]报告的最低平均角速度偏差，展示了强大的具有代表性的这种能力不仅非线性回归方法估计头部姿态，而且学习训练的映射可以容忍系统中出现的错误数据。这些内容在表五中进行了讨论。相比之下，人们不了解不变性的这一误差并展示特别是比较糟糕的偏航要求执行类似任务是的性能估算[34]。有关于多摄像机CHIL-CLEAR07在评价数据集上，用SSE潜入流形提供的最准确的结果。这表明，流形嵌入方法可以提供卓越的代表能力，虽然在本文介绍的所有技术中，只有线性SSE嵌入非均匀的训练数据进行了评估。
一系列不同的流形嵌入方法进行了比较。在Pointing’04数据集上，定位-LDA比PCA，LDA,LPP,定位-LPP[66]偏航产生更好的估计，但对基音周期估计，标准LDA比其他这些技术提供了更好的结果。事实上，这些嵌入的本地化版本不均匀，提高了位姿估计可能是有限的能力，选择正确的局部投影为每个新的样品。在CVRR-86数据集上，KLDA显示优于PCA，LDA和KPCA的，清楚地表明Kernelized版本提供给一个更好的嵌入对于位姿估计法[136]。在Softopia HOIP数据集上他已经表明，一个用Isomap到8维度的投影算法足以获得优于PCA和LPP的性能结果用一百个大小的子空间[101]。这可以激励继续调查具有代表性的非线性增加嵌入的方法姿态估计的能力，可以导致大的改善。
该方法是在视频序列中追踪头部用灵活的模型和追踪方法[14，81，82，94，124，140，147]在一个单独的图像中报告了一个重要的低误差比姿态估计系统。虽然这些方法使用不同的数据集不能直接比较，从我们的经验中，视觉跟踪方法提供了基本误差小于系统，从个体的视频帧估计头部姿态误差和时间滤波的结果。

C. 现实世界的适用性比较
对头部姿态估计系统是通用的，他应该身份不变，有足够的范围允许移动，不需要手动干预并且应该很容易部署到常规硬件上。尽管一些系统处理所有的这些问题，他们通常假设一个或多个条件简化姿态估计问题，在普遍使用的拓展上。我们已经确定了一下一组已在文献中常用的假设：
A. 连续视频假设在视频流中连续帧之间只有细微姿势的变化，从而可以估计每个帧之间头部姿态增量的相对变化。
B. 初始化假设该主体的头部姿态估计过程开始时是已知的。在实践中，主体是通常说的承担正面的姿势，直到系统已经开始，或系统等待，直到正面人脸检测器发现了一个正面的姿势。
C. 抗漂移假设头部姿态，只会短时间内计算，在此期间将不会有重大的异常视觉信息。如果这一假设受到了侵犯，姿态估计系统将受到漂移，并继续构成会有较大的误差估计。
D. 立体视觉假设由两个或更多的主体使可见的相机在一个足够小的距离判别整个脸的深度信息。另外，深度信息，可以获得其他特殊手段，比如飞行时间传感器[150]。
E. 正面观点假设姿态变化的限制的范围包含了所有的面部特征，从正面的观点。
F. 单自由度假设只能绕着一个轴头。
G. 特征定位假设面部特征提供给系统位置。这通常意味着，在测试数据的面部特征是手动标记。
H. 熟悉身份假设系统需要估计姿态只为已经被训练的一个人或一组人。
I. 合成数据假设系统只对合成图像不包含外观变化，发现在真实世界的图像。
这些假设的适用性限制在任何系统中，即使在受约束的环境中被证明是相当成功的。不论估计精度，重要的是识别系统，适用于头部姿态估计在现实世界的环境，如汽车和智能的空间。这类制度提供身份的最佳不变量估计头部姿态，至少还有两个自由度，没有任何人工干预。离散系统的姿态估计，带来固定的数量必须足够大，以充分的连续样本构成的空间。这些系统用粗体字表示，在表四，其中载有一个综合这次调查所涵盖的所有文件的列表。
这里写图片描述

V. 总结和结束语
头部姿态估计是一个自然的步骤弥合人与计算机之间的信息差距。这一基本人权的能力，提供了丰富的信息意图，动机，和世界人民的关注。通过模拟这种技能，系统能被创建，并且更好的与人相处。大多数方法假设头部姿态估计的角度来看，刚性模型，具有内在的局限性。在创建头部姿态估计系统的困难源于个人的外观加上巨大的变化差异，在灯光，背景，相机几何。
按时间顺序查看在头部姿态估计的进展，在这个领域，我们已经注意到一些令人鼓舞的进展。近年来，人们更加意识到需要比较的度量标准，强调姿势的变化，而不是图像的变化。这种趋势表现为随着外观的模板和爆炸的非线性流形嵌入方法。粗略的头部姿态估计也消失了，因为最近大部分工作重点是很好的估计和多自由度。作为结果，新的数据集，介绍了在过去的几年中，允许更准确的评价具有挑战性的环境。我们认为有继续改进的空间仍然很大。基于模型跟踪算法显示了巨大的希望，但他们将需要更彻底的评价标准数据集来理解他们的潜力。几何的方法尚未达到其全部潜力，但现代方法能自动和可靠地检测人脸特征位置，和这些方法应继续发展。在过去的几年里，另一个重要趋势是头部姿态出版物数量的增加。这可能是一个迹象，表明越来越多的人对这一领域感兴趣，这表明更快发展周期的新方法。
虽然头部姿态估计将继续是一个令人兴奋的领域具有很大的提升空间，人们期待现成的，普遍的头部姿态估计的程序，可以在任何新的应用程序中投入使用。满足大多数应用程序中，为今后的发展，我们提出下列设计准则为指导。
 准确的：系统应提供一个合理的估计，一个5°或更少的绝对平均误差。
 单目：该系统应能够从一个摄像机来估计头部姿态。虽然精度可以提高立体声或多视图图像，这并不应该是一个系统操作的要求。
 自主：手动初始化，不应该有任何检测期望，或定位，排除使用纯跟踪方法，测量一些初始配置方面相对头部姿态和形状/假定已知的人脸特征位置的几何方法。
 多重人：该系统应该能够估计造成多重人在一个图像中。
 身份和照明不变性：在许多环境中，系统必须绕过所有身份的工作用动态照明。
 分辨率独立：该系统应适用于进场和远场的高，低分辨率的图像。
 全方位的头项议案：该方法应该可以提供一个平稳，连续估计的俯仰，偏航，滚，即使是面对远离摄像机。
 实时：该系统应该能够向头部方向的快速估计一个连续的范围（每秒30或更快）的操作。
虽然没有一个单一的系统已达到所有这些准则，他似乎是一个近在咫尺的解决办法。但我们认为，用今天的方法在适的混合方法（也许是嵌入流形的组合，回归，或几何方法，结合基于模型的跟踪系统），可以满足这些标准。
对于今后的工作，我们希望看到一个富有挑战性的非线性流形嵌入技术的评价远场图像，证明这些方法在杂波或不完美的存在提供持续改善的定位。我们希望看到扩展的几何与跟踪方法适应各学科的人脸几何模型更精确的模型拟合。柔性模型，一个重要的改进将能够选择性地忽略该模型的自遮挡的部分，克服了基本限制在一个很有前途的一类。最后，我们描述一些应用领域，其中头部姿态已经并将继续产生深远的影响。
头部姿态估计系统将发挥关键作用，创造智能环境。已经出现了一个巨大的智能房间的兴趣检测住户和使用头部姿态来衡量他们的活动和视觉关注的焦点[5,50,74,92,99,116,122-124,128,131]。头部姿态，赋予了这些系统的能力，以确定谁是说话的人，并提供必要的资料，与会者分析了非言语的手势。这些类型的高级语义线索，可以转录，随着对话，意图，和与会者提供便于搜索的人际的相互作用指标，以便今后备查。
头部姿态估计可以突破接口计算。现有的一些例子包括系统允许用户控制计算机鼠标使用他的头部姿态运动[28]。回应弹出对话框的头点头或摇头[84],或者使用头部动作进行交互所体现的代理人[83]。他似乎只是一个时间问题，直到类似估计算法集成到与大众娱乐设备的吸引力上。
头部姿态估计将汽车安全的未来产生深远的影响。从根本上限制汽车司机的视野，人么可以在任何时间观察。一个没有注意到他的变化到环境中，有一种增加潜在的危及生命的碰撞可以减轻，如果司机注意到了一个看不见的危险。作为这方面的证据，最近的一项全面调查，对汽车碰撞展示了一款31%不太可能造成伤害相关的碰撞，当时一个或更多的旅客[105]。因此，有极大的兴趣，在驾驶员辅助系统作为虚拟乘客，利用驾驶员的头部姿态作为一种视觉线索关注的焦点和心理状态[3,16,36,48,85,86,98,135,151]。虽然在车辆的照明条件迅速变化使最困难的一个可视化环境，最近的这些系统展示了一种全自动的，实时的混合方法可以估计的姿态和跟踪在白天或夜间驾车司机的头部[85]。
我们认为，无处不在的头部姿态估计是超出我们当前的系统的把握，我们呼吁研究人员，以改善和扩展本文中描述的技术允许改变生活的人类互动和安全系统的研究进展。
致谢
支持这项研究的加州大学发现的程序和所提供的大众汽车的电子研究实验室。我们真诚的感谢我们的评审员，他们以建设性和有见地的建议，帮助提高文本质量。除此之外，我们感谢我们的同事在计算机视觉和机器人研究实验室提供了宝贵的援助。
参考

Ps：参考文献这里由于文件格式和数目太多的原因不往上写了，论文的原题目就是Head Pose Estimation in Computer Vision - A Survey，可自行查阅！

仅供交流学习！！！

coder_ycy

关注

7
点赞
踩
32

收藏

觉得还不错? 一键收藏
3
评论
计算机视觉中头部姿态估计的研究综述--Head Pose Estimation in Computer Vision - A Survey

计算机视觉中头部姿态估计的研究综述埃里克.莫非，IEEE的初级会员默罕马努拜特里维迪，IEEE高级会员
复制链接

扫一扫