卷积神经网络精确率不增反降_姿态跟踪论文研读--(1)利用卷积神经网络学习人体姿态估计特征...

最新推荐文章于 2021-05-02 19:22:07 发布

weixin_40009207

最新推荐文章于 2021-05-02 19:22:07 发布

阅读量512

点赞数

文章标签：卷积神经网络精确率不增反降

摘要

本文介绍了一种新的结构，就是利用多层卷积神经网络结构和模块化学习技术来习得低维特征和高维弱空间模型，以此来进行人体姿态估计。无约束的人体姿态估计是计算机视觉领域中最困难，最棘手的问题之一，而我们提出的最新架构和学习模式对当前领域有所提升。本文的主要贡献是首次表明，深度学习的特定变化能够满足现有传统体系结构在此任务上的性能，并且在许多情况下优于它们。本文还讨论了在研究替代方案时获得的一些经验教训。其中最值得注意的是，可以在只覆盖图像中几个像素的区域上学习到强低维特征检测器，高维的空间模型在一定程度上改善了整体结果，但程度比预期的要小得多。许多研究人员之前认为运动学结构(kinematic structure)和自上而下(top-down)的结构在该领域占据至关重要的地位，但我们所提出的自底向上，弱空间模型的结构，提高了其他更加复杂模型结构所产生的最好的结果。这项成果对于那些在语音识别，目标识别以及其他领域的研究者也将有所体会并应用。

图一：图中绿色十字标志是我们最新的手腕定位器技术，图中红色十字标志是当前 CVPR13 MODEC 检测器应用在 FLIC 数据集的效果

1 介绍

计算机视觉中最困难的任务之一是确定人体的高自由度配置，包括所有的四肢、复杂的自遮挡、自相似的部分，以及由于服装、体型、光照和许多其他因素而产生的巨大变化。对于这个问题，当前最有挑战性的场景是单视角下的RGB图片，没有任何原先假设的情况下使用移动模型、姿态模型、背景模型以及当前系统所使用的任何常见启发式模型。在正面或侧面视角下找到一张人脸相对来说比较容易，但是确定身体部位的精确位置，比如手、肘部、肩膀、臀部、膝盖和脚，在任意杂乱的背景前，这些部位有时只占图像中的几个像素点，要困难得多。

最有效的姿态估计方法，包括基于形变部件模型的姿态估计方法，通常是基于身体部位探测器。这样的身体部位探测器通常由多阶段处理流程所组成的。在一个典型的流程中，处理的第一个阶段包括提取底层特征集，例如SIFT、HoG或其他描述局部图像块中的方向统计信息的过滤器(filters)。接下来，将这些特性汇集(pooled)到局部空间区域，有时还跨越多个尺度以减小信息量，并保证局部尺度不变性。最后，将聚集的特征映射到一个向量，然后输入到 1)一个标准分类器(如支持向量机(SVM)) 或 2)下一个处理阶段(如将部件组装成一个整体)。许多工作致力于工程系统，以产生一个对类敏感的向量表示(例如头、手、躯干)，同时不受各种噪声因素(灯光、视角、比例等)的影响。

其中一种可供选择的方法是表示学习：依赖数据而不是特征工程，学习一种不受噪声因素所干扰的表示。回顾表示学习请参见这篇论文【Y. Bengio, A. C. Courville, and P. Vincent. Representation learning: A review and new perspectives】。学习多层表示是很常见的，这被称为深度学习。其中一些技术已经使用无监督或半监督学习来提取多层领域特定的不变表示，然而，纯监督技术在最近的几个挑战中获得了巨大的优势，包括ImageNet LSVRC 2012和2013。这些端到端学习系统充分利用了计算机硬件的进步(尤其是GPUs), 更大的数据集例如ImageNet和更先进的算法 (特别是基于梯度训练的方法和正则化)。

虽然这些方法已经在一般目标识别中得到了验证，但是它们在姿态估计中的应用却受到了限制。在做端到端的人类姿态估计的学习任务时遇到的部分挑战是跟人体非刚性结构有关，必然会碰到精确性的问题(深度识别模型在经过池化层时经常丢掉精确位置信息)、复杂性以及多人体模型的自然姿态。

在本文中, 我们提出了第一个端到端的学习方法来进行全身的人体姿态估计。而我们的方法是基于卷积网络,我们想强调应用这个模型的最初实现 “off-the-shelf” 不能工作的。因此，这项工作的贡献在于，在一个现代的、具有挑战性的数据集上，该模型的性能优于最先进的可变形部件模型(DPMs)，而且还分析了在人体姿态估计中使用卷积神经网络所需的条件。特别地，我们提出了一种两阶段滤波方法，在此方法中，卷积网络部分检测器的响应映射由部分层次结构来通知第二个流程去噪。

2 相关工作

检测人体及其姿态的研究已经进行了几十年。许多早期的技术依赖于基于手工制作、学习的特征或轮廓提取技术的滑动窗口部件检测器，应用于 controlled recording conditions。最近，几种新的方法被提出并应用到无约束条件的领域。在这些领域中，由于“bag of features"以及基于回归、最近领域或基于SVM等结构的原因，因而表现出优良的性能。例如，来自人体的基于“形状上下文”的基于边缘的直方图[28,1]。或者只是剪影功能[19]。Shakhnarovich等人学习了一个参数敏感的哈希函数来执行基于实例的姿态估计。许多相关的技术也被应用到手动跟踪，如[48]。在[12]中可以找到更广泛的手跟踪领域的调查。

已经提出了许多技术来提取、学习或推理整个身体的特征。有些使用局部检测器和结构推理的组合(粗跟踪见[36]，人的相关跟踪见[10])。同样，使用图像结构[2,3,17,37,33,34]、“poselets”[9]和其他部分模型[16,50]的更通用技术也得到了越来越多的关注。我们将在下面的部分中重点介绍这些技术及其最新版本。

进一步的例子来自HumanEva dataset competition[41]，或者使用的方法更高分辨率的形状模型，如SCAPE[4]和进一步的扩展[20,8]。这些不同从我们的领域来看，所考虑的图像具有更高的质量和更少的混乱。也有许多这些技术中，有一种可以对单个相机的图像进行处理，但需要视频序列输入(而不是单个图像)才能获得令人印象深刻的结果[42,52]。

3 模型

利用卷积神经网络来实现人体姿态估计，最显而易见地方法是直接将图像映射到向量中来编码关节处的姿态:i.e.标签类型在姿态数据集中寻找。卷积网络输出将表示关节的无界二维或三维位置，或者关节角度的层次结构。然而，我们发现这项工作举步维艰，其中一个问题是池化层，虽然在目标识别时有利于提高转换不变性，但在精确预测姿态时不可避免地破坏精确空间信息。例如，生成分割映射的卷积网络就完全避免了池化[47,13]。另一个问题是，从输入空间到运动体位姿系数的直接映射是高度非线性，而不是一对一的。然而，即使我们选择了这条路，尝试直接映射到一个完整的身体姿态的表现，还有一个更深层次的问题。在高维空间中，有效的姿态代表了一个低维流形。做出区别的网络映射到空间致使多数参数配置不代表有效的姿态是一件困难的事。换句话说，将网络的输出限制为更小的有效配置类是有意义的。

而不是使用单个卷积神经网络进行多输出回归来学习位姿系数。直接地，我们发现训练多个convnet来执行独立的二进制体-部件分类，每个特性一个网络，可以提高数据集的性能。这些卷积神经网络作为滑动窗口应用于输入的重叠区域，并将像素窗口映射到单个二进制输出:身体部分的存在与否。应用convnet的结果是一个响应映射，表示身体在该位置的置信度。这允许我们使用更小的convnets，并保留池的优点，代价是必须为每个身体部分维护一组单独的参数。当然，一系列独立的部件检测器不能像结构化输出模型那样强制执行姿态的一致性，而结构化输出模型会生成有效的全身配置。在接下来的论文中, 我们首先描述详细卷积网络的体系结构 , 然后强制姿态系数使用parent-child关系。

图二：在我们实验中使用的卷积网络结构

3.1 卷积网络结构

最低维度的two-stage特征检测管道是基于一个标准的卷积结构，如图二所示。与完全连接的深度神经网络类似，Convnets也进行端到端特征学习，并使用反向传播算法进行训练。然而，它们在许多方面存在差异，最显著的是局部连接、权重共享和局部池化。前两个特性是显著降低参数量和减少输入特征的重复学习。第三个属性使所学习的表示对输入的小平移保持不变。

如图2所示，convnet管道从一个64×64像素的RGB输入patch开始，它具有被局部对比度归一化(LCN)[22]来强调几何不连续性和改进泛化性能[32]。LCN层由一个9×9像素的局部减法组成归一化，然后是9×9局部分裂归一化。然后输入被3处理卷积和子采样层，使用校正线性单元(ReLUs)[18]和最大池。

正如预期，我们发现内部池化层有助于 a)减少计算复杂性 b)提高对小输入图像平移的分类容忍度。不幸的是，池也会导致空间精度的损失。由于目标应用程序不能实时地body-pose检测,因为我们发现,有足够的训练范例,不变性输入转换是可以习得的,我们只选择使用2阶的2×2池(总图像将采样率是4×4)。

在卷积和子采样的三个阶段之后，顶层池化映射将被压平成三个全连接层处理的向量，类似于深层神经网络。每一个输出阶段都由一个线性矩阵-向量乘法及学习偏差组成，然后是pointwise非线性(ReLU)。输出层只有一个逻辑单位，表示身体部分出现在该patch中的概率。

为了训练卷积神经网络，我们进行了标准的批量随机梯度下降。从训练集图像中，我们设置了一个验证集来调整网络的超参数，如特征的数量和大小、学习率、动量系数等。我们使用Nesterov动量[43]和RMSPROP[46]来加速学习，我们在每个全连通线性阶段的输入上使用L2正则化和dropout[21]来减少限制训练集的过拟合。

图三： Spatial Model Connectivity with Spatial Priors

3.2 使用空间模型强制全局姿态一致性

当应用于验证集时，3.1节中给出的网络原始输出会产生许多假阳性(FP)。当应用于验证集时，3.1节中给出的网络原始输出会产生许多假阳性。我们相信这是由于两个因素:1)小图像上下文作为输入事先(64×64像素或大约5%的输入图像区域)模型不给足够的上下文信息来执行在解剖学上一致的关节位置推理和2)训练集的大小是有限的。因此，我们使用一个具有简单身体姿态先验的更高层次的空间模型来从卷积网络输出中去除强异常值。我们不期望这个模型能提高接近ground truth标签的姿态的性能(例如在10个像素内)，而是作为一个后处理步骤，由于有很强的异常值，减少对解剖学上不可能的姿态的强调。

我们的简单空间模型的节点间连接如图3所示。对于人体姿态的但一面，它联系着一个动态2D节点线性链，我们使用了左肩、肘部和手腕;然而，我们可以使用右侧关节而不丧失通用性(因为检测右侧身体部位只需要输入图像的水平镜像)。对于chain上的每一个节点, 我们事先探测器中的每个节点生成 response-map 一元 distributions pfac (x), psho (x), pelb (x), pwri (x) 在密集的像素位置为 face, x, shoulder, 手肘和手腕关节 respectively.对于本节的其余部分，所有分布都假定为像素位置上的函数，因此将删除x符号。我们的空间模型的输出会产生过滤响应地图： pˆfac, pˆsho, pˆelb, and pˆwri。

图四: Part priors for left body parts

已知所有的先验条件分布和凸一元分布，我们现在可以使用类似于sumproduct信念传播算法的方法构造每个部分的过滤分布对于body part i，有一组相邻的节点U，最终的分布定义为:

图五: Global prior for the face: hfac

λ是一个混合参数和控制各关节的信心的一元分布对其最终过滤(λ=1用于我们的实验)。因此，最终的联合分布是该联合的一元分布的乘积，以及来自邻近节点的信念(与标准的总和-乘积信念传播一样)的乘积。在log空间中，肩关节的上述乘积为:

我们还对肘关节和腕关节进行了等效的计算。治疗面部关节作为一个特例。从经验上看，我们发现结合肩关节的影像证据对滤波后的人脸分布性能较差。这很可能是由于convnet在定位人脸位置方面做得很好，因此纳入了噪声证据从肩膀探测器实际上增加了不确定性。相反，我们使用全局位置先验对于人脸，通过学习训练集图像中人脸位置的位置直方图得到hfac，如图5所示。在对数空间中，则面输出分布为:

最后，由于学习到的神经网络卷积特征和空间先验对尺度不是显式不变的，我们必须在测试时对多个尺度的图像运行convnet和空间模型，然后使用这些尺度上最有可能的关节位置作为最终关节位置。对于包含多个人员示例的数据集(已知先验)，我们使用非最大抑制[29]在每个比例的经过筛选的响应映射中找到多个局部极大值，然后从场景中的每个人员中选取最可能的n个联合候选项。

4 结果

我们在由5003 still RGB组成的FLIC[38]数据集上评估了我们的体系结构图片取自各种好莱坞电影。数据集中的每一帧都包含至少一个人的正面姿态（面朝镜头），每一帧都由Amazon Mechanical Turk进行处理，得到一个人上身关节位置的ground truth标签。FLIC数据集对于最先进的姿态估计方法是非常具有挑战性的，因为姿态是不受约束的，身体部位往往是闭塞的，服装和背景是不一致的。

我们使用来自数据集的3987张训练图像，并对其进行水平镜像，得到3987×2 = 7974个示例。由于训练图像不具有相同的缩放比例，我们还在这些训练集图像中为头部手工标注了边框，并将其调整为标准缩放比例。此外，我们将它们裁剪为320×240，使肩部标注的中心位于(160px, 80px)。我们在测试时不执行此图像归一化。按照Felzenszwalb等人的方法，在测试时，我们在只有一个人的图像上运行模型(1016个测试示例中的351个图像)。如第3节所述，模型在6种不同的输入图像尺度上运行，然后我们使用这些尺度上置信度最高的关节位置作为最终位置。

为了训练convnet，我们使用了Theano[7]，它提供了一个基于python的框架，用于高效的GPU处理和复杂复合函数的符号微分。为了减少GPU在训练时的内存使用，我们只在GPU上缓存100个小批量;这使得我们可以使用更大的convnet模型，并将所有训练数据保存在一个GPU上。作为这个框架的一部分,我们的系统有两个主要线程执行:1)训练函数运行在GPU上评估batched-SGD更新,和2)数据调度函数进行预处理CPU上的数据,然后传递给GPU在当线程1)处理完100迷你批次。在NVIDIA TITAN GPU上训练每个convnet每个补丁需要1.9ms (fprop + bprop) = 41分钟。我们在一个拥有5000个节点的cpu集群上进行测试。测试时间:每张图像0.49秒(0.94x scale) = 2.8分钟。NMS和空间模型花费的时间可以忽略不计。

为了测试，由于每个图像中所有窗口的权重都是共享的，所以我们将学习到的过滤器与整个图像进行卷积，而不是单独的窗口。这大大减少了在整个测试集上执行正向传播的时间。

4.1 评估

为了在FLIC数据集上评估我们的模型，我们使用了Sapp et建议的精度度量al.[38]:对于给定的关节精度半径，我们报告测试集中正确的关节百分比在半径阈值内(其中距离定义为二维欧氏距离，单位为像素)。在图4.1 我们评估这个性能测量手腕,肘部和肩膀关节.我们还将我们的检测器与DPM[15]和MODEC[38]体系结构进行了比较。注意，在测试所有检测器时，我们使用351张图像的相同子集。

图六：测试装置上检测器性能的比较

图4.1显示了我们的架构优于或等于MODEC和DPM检测器身体的三个部分。对于腕关节和肘关节，我们的简单空间模型改进了关节定位大约5%的测试集用例(在5像素阈值)，这使我们能够胜过所有其他探测器。然而，对于肩关节，我们的空间模型实际减少大阈值的关节定位精度。这可能就是导致convnet在肘部表现性能不佳的原因。

正如预期的那样，空间模型并不能提高已经接近正确值的点的关节精度，但是在去除腕部和肘部关节的异常值方面却始终是成功的。图4.1是一个应用空间模型之前，强假阳性(FP)导致零件位置不正确的例子，在应用我们的空间模型之后，该错误会被移除。

5 结论

本文揭示了我们如何提高当前计算机视觉领域中最复杂的任务之一时所获取的成功：无约束的人体姿态。Convnets是一种结合了全局位置先验的低维特征检测器，性能超越了许多更为复杂和流行的模型。为了进一步提高结果，我们探索了许多不同的高层结构模型，但最通用的高层空间模型取得了最好的结果。正如引言中提到的，这与人类运动学结构的普遍观点相悖，但它反映了其他领域的结果。

图七：我们的空间模型的影响:红色的是MODEC，蓝色的是在我们的空间之前模型，绿十字是我们的空间模型

图八：失败案例:绿十字是我们新技术的手腕定位器，红十字是最先进的CVPR13 MODEC探测器[38]对FLIC数据库

图九：成功案例:绿色十字是我们新技术的手腕定位器，红色十字是最先进的CVPR13 MODEC探测器[38]对FLIC数据库

我们希望获得更大的提升，通过扩大我们现在发明的基于姿态剪切技术的数据集。此外，我们目前还在试验多分辨率输入表示，它考虑到更大的空间上下文。

参考

[1] A. Agarwal, B. Triggs, I. Rhone-Alpes, and F. Montbonnot. Recovering 3D human pose from monocularimages. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(1):44–58, 2006. 2

[2] M. Andriluka, S. Roth, and B. Schiele. Pictorial structures revisited: People detection and articulatedpose estimation. In CVPR, 2009. 2

[3] M. Andriluka, S. Roth, and B. Schiele. Monocular 3d pose estimation and tracking by detection. InComputer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 623–630. IEEE,2010. 2

[4] D. Anguelov, P. Srinivasan, D. Koller, S. Thrun, J. Rodgers, and J. Davis. Scape: shape completion andanimation of people. In ACM Transactions on Graphics (TOG), volume 24, pages 408–416. ACM, 2005.3

[5] V. Athitsos, J. Alon, S. Sclaroff, and G. Kollios. Boostmap: A method for effificient approximate similarityrankings. CVPR, 2004. 2

[6] Y. Bengio, A. C. Courville, and P. Vincent. Representation learning: A review and new perspectives.Technical report, University of Montreal, 2012. 2

[7] J. Bergstra, O. Breuleux, F. Bastien, P. Lamblin, R. Pascanu, G. Desjardins, J. Turian, D. Warde-Farley,and Y. Bengio. Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientifific Computing Conference (SciPy), June 2010. Oral Presentation. 7

[8] M. Black, D. Hirshberg, M. Loper, E. Rachlin, and A. Weiss. Co-registration – simultaneous alignment and modeling of articulated 3D shapes. European patent application EP12187467.1 and US Provisional Application, Oct. 2012. 3

[9] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In ICCV, sep 2009. 2

[10] P. Buehler, A. Zisserman, and M. Everingham. Learning sign language by watching TV (using weakly aligned subtitles). CVPR, 2009. 2

[11] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 2

[12] A. Erol, G. Bebis, M. Nicolescu, R. D. Boyle, and X. Twombly. Vision-based hand pose estimation: A review. Computer Vision and Image Understanding, 108(1):52–73, 2007. 2

[13] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Scene parsing with multiscale feature learning, purity trees, and optimal covers. In ICML, 2012. 3

[14] A. Farhadi, D. Forsyth, and R. White. Transfer Learning in Sign language. In CVPR, 2007. 2

[15] P. Felzenszwalb, D. McAllester, and D. Ramanan. A discriminatively trained, multiscale, deformable part model. In CVPR, 2008. 6, 7

[16] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part-based models. PAMI’10. 2

[17] V. Ferrari, M. Marin-Jimenez, and A. Zisserman. Pose search: Retrieving people using their pose. In CVPR, 2009. 2

[18] X. Glorot, A. Bordes, and Y. Bengio. Deep sparse rectififier networks. In Proceedings of the 14th International Conference on Artifificial Intelligence and Statistics. JMLR W&CP Volume, volume 15, pages 315–323, 2011. 4

[19] K. Grauman, G. Shakhnarovich, and T. Darrell. Inferring 3d structure with a statistical image-based shapemodel. In ICCV, pages 641–648, 2003. 2

[20] N. Hasler, C. Stoll, M. Sunkel, B. Rosenhahn, and H.-P. Seidel. A statistical model of human pose andbody shape. In P. Dutr’e and M. Stamminger, editors, Computer Graphics Forum (Proc. Eurographics2008), volume 2, Munich, Germany, Mar. 2009. 3

[21] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neuralnetworks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4

[22] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun. What is the best multi-stage architecture forobject recognition? In Computer Vision, 2009 IEEE 12th International Conference on, pages 2146–2153,Sept 2009. 4

[23] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classifification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012. 2

[24] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition.Proc. IEEE, 86(11):2278–2324, 1998. 2, 3

[25] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 2

[26] A. Lucchi, Y. Li, X. Boix, K. Smith, and P. Fua. Are spatial and global constraints really necessary for segmentation? In Computer Vision (ICCV), 2011 IEEE International Conference on, pages 9–16. IEEE,2011. 1, 8

[27] N. Morgan. personal communication. 8

[28] G. Mori and J. Malik. Estimating human body confifigurations using shape context matching. ECCV, 2002.2

[29] A. Neubeck and L. Van Gool. Effificient non-maximum suppression. In Proceedings of the 18th International Conference on Pattern Recognition - Volume 03, ICPR ’06, pages 850–855, Washington, DC, USA,2006. IEEE Computer Society. 6

[30] S. J. Nowlan and J. C. Platt. A convolutional neural network hand tracker. Advances in Neural Information Processing Systems, pages 901–908, 1995. 2, 3

[31] M. Osadchy, Y. L. Cun, and M. L. Miller. Synergistic face detection and pose estimation with energybased models. The Journal of Machine Learning Research, 8:1197–1215, 2007. 3

[32] N. Pinto, D. D. Cox, and J. J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008. 4

[33] L. Pishchulin, A. Jain, M. Andriluka, T. Thormaehlen, and B. Schiele. Articulated people detection and pose estimation: Reshaping the future. In CVPR’12. 2

[34] L. Pishchulin, A. Jain, C. Wojek, T. Thormaehlen, and B. Schiele. In good shape: Robust people detectionbased on appearance and shape. In BMVC’11. 2

[35] R. Poppe. Vision-based human motion analysis: An overview. Computer Vision and Image Understanding, 108(1-2):4–18, 2007. 2

[36] D. Ramanan, D. Forsyth, and A. Zisserman. Strike a pose: Tracking people by fifinding stylized poses. In CVPR, 2005. 2

[37] B. Sapp, C. Jordan, and B.Taskar. Adaptive pose priors for pictorial structures. In CVPR, 2010. 2

[38] B. Sapp and B. Taskar. Multimodal decomposable models for human pose estimation. In CVPR’13. 1, 3,6, 7, 8, 9

[39] G. Shakhnarovich, P. Viola, and T. Darrell. Fast pose estimation with parameter-sensitive hashing. In ICCV, pages 750–759, 2003. 2

[40] J. Shotton, T. Sharp, A. Kipman, A. Fitzgibbon, M. Finocchio, A. Blake, M. Cook, and R. Moore. Realtime human pose recognition in parts from single depth images. Communications of the ACM, 56(1):116–124, 2013. 3

[41] L. Sigal, A. Balan, and B. M. J. HumanEva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion. IJCV, 87(1/2):4–27, 2010. 3

[42] C. Stoll, N. Hasler, J. Gall, H. Seidel, and C. Theobalt. Fast articulated motion tracking using a sums of gaussians body model. In Computer Vision (ICCV), 2011 IEEE International Conference on, pages 951–958. IEEE, 2011. 3

[43] I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the importance of initialization and momentum in deep learning. 4

[44] G. Taylor, R. Fergus, I. Spiro, G. Williams, and C. Bregler. Pose-sensitive embedding by nonlinear NCA regression. In Advances in Neural Information Processing Systems 23 (NIPS), pages 2280–2288, 2010. 3

[45] G. Taylor, L. Sigal, D. Fleet, and G. Hinton. Dynamical binary latent variable models for 3d human pose tracking. In Proc. of the 23rd IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2010. 3

[46] T. Tieleman and G. Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, 2012. 4

[47] S. C. Turaga, J. F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H. S. Seung.Convolutional networks can learn to generate affifinity graphs for image segmentation. Neural Computation, 22:511–538, 2010. 3

[48] R. Y. Wang and J. Popovic. Real-time hand-tracking with a color glove. In ´ ACM Transactions on Graphics(TOG), volume 28, page 63. ACM, 2009. 2

[49] C. Wren, A. Azarbayejani, T. Darrell, and A. Pentland. Pfifinder: Real-time tracking of the human body.IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7):780–785, 1997. 2

[50] Y. Yang and D. Ramanan. Articulated pose estimation with flflexible mixtures-of-parts. In Computer Visionand Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1385–1392. IEEE, 2011. 2

[51] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. arXiv preprint arXiv:1311.2901, 2013. 2

[52] S. Zuffifi, J. Romero, C. Schmid, and M. J. Black. Estimating human pose with flflowing puppets. 3

weixin_40009207

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络精确率不增反降_姿态跟踪论文研读--(1)利用卷积神经网络学习人体姿态估计特征...

摘要本文介绍了一种新的结构，就是利用多层卷积神经网络结构和模块化学习技术来习得低维特征和高维弱空间模型，以此来进行人体姿态估计。无约束的人体姿态估计是计算机视觉领域中最困难，最棘手的问题之一，而我们提出的最新架构和学习模式对当前领域有所提升。本文的主要贡献是首次表明，深度学习的特定变化能够满足现有传统体系结构在此任务上的性能，并且在许多情况下优于它们。本文还讨论了在研究替代方...
复制链接

扫一扫