2020CVPR人体姿态估计论文盘点

最新推荐文章于 2024-05-30 09:48:18 发布

孙琪翔

最新推荐文章于 2024-05-30 09:48:18 发布

阅读量4.1k

点赞数 3

本文链接：https://blog.csdn.net/m0_37909240/article/details/106976070

版权

Hey，今天总结盘点一下2020CVPR论文中涉及到人体姿态估计的论文。人体姿态估计分为2D（6篇）和3D（11篇）两大类。

2D 人体姿态估计

[1].UniPose: Unified Human Pose Estimation in Single Images and Videos

作者 | Bruno Artacho, Andreas Savakis

单位 | 罗切斯特理工学院

摘要：我们提出了一个统一的人体姿态估计框架UniPose，它基于我们的“瀑布式”萎缩空间池架构，在多个姿态估计指标上取得了state-of-art结果。单姿态合并率上下文分割和联合定位在一个阶段内估计人体姿态，精度高，不依赖统计后处理方法UniPose中的瀑布模块利用了级联结构中渐进式过滤的效率，绘制可与空间金字塔结构相媲美的多尺度视野。此外，我们的方法扩展到单姿态LSTM进行多帧处理，并获得了视频中时间姿态估计的最新结果。我们在多个数据集上的结果表明，具有ResNet主干网和瀑布模型的UniPose是一个健壮而有效的姿势估计体系结构，可获得单人姿势检测的state-of-the-art.

一种不需要后处理的单人姿态估计方法，可扩展到视频

[2].The Devil Is in the Details: Delving Into Unbiased Data Processing for Human Pose Estimation

作者 | Junjie Huang, Zheng Zhu, Feng Guo, Guan Huang

单位 | XForwardAI Technology Co.,Ltd；清华

GitHub：https://github.com/HuangJunJie2017/UDP-Pose

摘要：近年来，自顶向下的姿态估计方法在人体姿态估计中占据主导地位。据我们所知，数据处理作为训练和推理中的一个有趣的基本组成部分，并没有在姿态估计领域中得到系统的考虑。本文针对这一问题，研究发现在有偏数据中存在着俯冲位姿估计的魔鬼处理。特别是，通过研究主要包括数据传输和编码解码在内的最新方法中的标准数据处理，我们发现，在推理过程中，常用翻转策略得到的结果与原策略不一致。此外，在训练和推理过程中，标准编码解码都存在统计误差。这两个问题耦合在一起，极大地降低了姿态估计的性能。在定量分析的基础上，我们提出了解决这一困境的原则方法。数据在单位长度（像素间的间隔）的连续空间中处理，而不是在有像素的离散空间中处理，采用组合分类和回归的方法进行编码解码。将二者结合起来可以实现人体姿态估计的无偏数据处理（UDP）。UDP不仅大大提高了现有方法的性能，而且在结果再现和未来的排种中也发挥着重要作用。作为一种模型不可知的方法，UDP 提出simplebaseline-ResNet50-256×192x1.5ap（70.2～71.7）和HRNet-W32-256×192x1.7ap（73.5～75.2）在cocootest devset上实现。采用UDP协议的HRNet-W48-384×288实现了76.5ap，为人体姿态估计开辟了一条新的途径。源代码已公开，可供进一步研究1

对之前SOTA方法数据处理部分的无偏处理，大幅提升了精度

[3].HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

作者 | Bowen Cheng, Bin Xiao, Jingdong Wang, Honghui Shi, Thomas S. Huang, Lei Zhang

单位 | UIUC；微软；俄勒冈大学

GitHub：https://github.com/HRNet/ Higher-HRNet-Human-Pose-Estimation

摘要：自下而上的人体姿态估计方法由于尺度变化的挑战，在预测小人物的正确姿态方面存在困难。本文提出了一种新的自底向上的人体姿态估计方法，该方法利用高分辨率特征金字塔来学习尺度感知表示。该方法具有训练的多分辨率监控和推理的多分辨率聚合，能够更精确地解决多人姿态估计和定位关键点的尺度变化问题，特别是小的人，HigherHRnet中的特征金字塔由来自HRNet的特征映射输出和通过转置的上采样高分辨率输出组成卷积。HigherHR-Net在COCO测试开发上比以往的最佳自底向上方法有2.5%的AP，显示了其在处理中的有效性比例变化。此外，HigherHRNet在不使用优化或其他后处理技术的情况下，获得了最新的COCO tes-tdev测试结果（70.5%AP），超过了所有现有的自底向上方法。HigherHRNet甚至超过了所有自上而下的拥挤姿势测试方法（67.6%AP），表明其在拥挤场景中的鲁棒性。

[4].Distribution-Aware Coordinate Representation for Human Pose Estimation

作者 | Feng Zhang, Xiatian Zhu, Hanbin Dai, Mao Ye, Ce Zhu

单位 | 电子科技大学；悉尼大学

GitHub：https://github.com/ilovepose/DarkPose

摘要：热图作为人体姿态估计的标准坐标表示，并没有得到深入的研究。这项工作填补了这一空白。我们首次发现，将预测的热量映射到原始图像空间中的最终关节坐标的过程对性能有着显著的影响。进一步指出了标准坐标解编码方法的设计局限性，提出了一种更具原则性的分布式感知译码方法。此外，我们还通过生成无偏/准确的热图来改进标准坐标编码过程（即将地面真坐标转换为热图）。将二者结合起来，提出了一种新的基于分布感知的关键点坐标表示（暗）方法。作为一个与模型无关的插件，DARK为现有的人体姿态估计模型带来了显著的性能提升。大量的实验表明，在MPII和COCO这两个公共基准测试中，黑暗的结果是最好的。此外，DARK实现了第二个地方进入ICCV2019 COCO关键点挑战。

[5].Combining Detection and Tracking for Human Pose Estimation in Videos

作者 | Manchen Wang, Joseph Tighe, Davide Modolo

单位 | AWS Rekognition

摘要：我们提出了一种新颖的自上而下的方法，可以解决视频中多人人体姿势估计和跟踪的问题。与现有的自上而下的方法相比，我们的方法不受其人员检测器性能的限制，并且可以预测未定位的人员实例的姿势。它通过在时间上向前和向后传播已知人员的位置并在这些区域中搜索姿势来实现此功能。我们的方法包括三个部分：（i）一个剪辑跟踪网络，它同时对小型视频剪辑执行人体关节检测和跟踪；（ii）视频跟踪管道，该视频跟踪管道将剪辑跟踪网络生成的固定长度的小轨道合并到任意长度的轨道中；（iii）SpatialTemporal合并程序，该程序根据空间和时间平滑项精炼关节位置。得益于我们的剪辑跟踪网络和合并程序的精确性，我们的方法可以产生非常准确的联合预测，并且可以解决棘手的场景（如纠缠不清的人们）中的常见错误。我们的方法在PoseTrack 2017和2018数据集上以及在所有自上而下和自下而上的方法上实现了联合检测和跟踪的最新结果。

[6].Mixture Dense Regression for Object Detection and Human Pose Estimation

作者 | Ali Varamesh, Tinne Tuytelaars

单位 | ESAT-PSI, KU Leuven

GitHub：https://github.com/alivaramesh/MixtureDenseRegression

摘要：混合模型是公认的学习方法，在计算机视觉中，大多数已将其应用于逆向或不确定的问题。但是，它们是通用的分而治之技术，以数据驱动的方式将输入空间分为相对同质的子集。不仅定义不明确的问题，而且定义明确的复杂问题也应从中受益。为此，我们设计了一个使用混合密度网络进行空间回归的框架。我们实现了对象检测和人体姿势估计的框架。对于这两个任务，混合模型产生更高的精度，并将输入空间划分为可解释的模式。对于物体检测，混合成分着重于对象尺度，其成分的分布紧随地面真实度的尺度。这实际上减轻了对多尺度测试的需求，提供了卓越的速度精度折衷。对于人体姿势估计，混合模型基于观点和不确定性（即正视图和后视图）对数据进行划分，而后视图则带来更高的不确定性。我们在MS COCO数据集上进行实验，没有遇到任何模式崩溃。

3D 人体姿态估计

[7].Deep Kinematics Analysis for Monocular 3D Human Pose Estimation

作者 | Jingwei Xu, Zhenbo Yu, Bingbing Ni, Jiancheng Yang, Xiaokang Yang, Wenjun Zhang

单位 | 上海交通大学；华为海思

摘要：对于以2D检测为条件的单眼3D姿势估计，嘈杂/不可靠的输入是此任务的主要障碍。试图解决该问题的简单结构约束，例如对称损失和关节角度限制，只能提供少量的改善，并且在先前的研究中通常被视为辅助损失。在此任务中充分利用人类先验知识仍然是一项挑战。在本文中，我们建议系统地解决上述问题。首先，我们表明优化嘈杂的2D输入的运动学结构对于获得准确的3D估计至关重要。其次，基于校正后的2D关节，我们进一步明确地分解了具有人类拓扑结构的关节运动，这导致更紧凑的3D静态结构更易于估计。最后，我们提出了一个时间模块来细化3D轨迹，从而获得更合理的结果。上面的三个步骤无缝地集成到了深度神经模型中，该模型同时考虑了2D输入和3D输出的静态/动态结构，形成了深运动学分析流水线。大量实验表明，提出的框架在两个广泛使用的3D人体动作数据集上实现了最先进的性能。同时，有针对性的消融研究表明，每一个前一步对于后一个步骤获得有希望的结果都是至关重要的。

[8].Cross-View Tracking for Multi-Human 3D Pose Estimation at Over 100 FPS

作者 | Long Chen, Haizhou Ai, Rui Chen, Zijie Zhuang, Shuang Liu

单位 | 清华；AiFi Inc

GitHub：https://github.com/longcw/crossview_3d_pose_tracking

摘要：实时估计多个人的3D姿势是计算机视觉中一项经典但仍具有挑战性的任务。它的主要困难在于2D姿势的交叉视图关联中的歧义性以及在多个视图中有多个人时的巨大状态空间。在本文中，我们提出了一种用于从多个校准摄像机视图进行多人3D姿态估计的新颖解决方案。它以不同相机坐标中的2D姿势作为输入，并以全局坐标中的精确3D姿势为目标。与以前的在每一帧从头开始在所有视图对之间关联2D姿势的方法不同，我们利用视频中的时间一致性将2D输入与3D姿势直接在3空间中进行匹配。更具体地说，我们建议保留每个人的3D姿势，并通过跨视图多人跟踪。正如我们在广泛使用的公共数据集上所展示的那样，这种新颖的公式提高了准确性和效率。为了进一步验证我们方法的可扩展性，我们提出了一个新的大规模多人数据集，具有12至28个摄像机视图。我们的解决方案没有麻烦，在12台摄像机上可达到154 FPS，在28台摄像机上可达到34 FPS，这表明它具有处理大型现实应用的能力。

[9].Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis

作者 | Jogendra Nath Kundu, Siddharth Seth, Varun Jampani, Mugalodi Rakesh, R. Venkatesh Babu, Anirban Chakraborty

单位 | 印度科技学院；谷歌

网站 | https://sites.google.com/view/pgp-human

摘要：相机捕捉到的人体姿势是多种变化来源的结果。有监督的3D姿态估计方法的性能是以消除诸如形状和外观之类的变化为代价的，这对于解决其他相关任务可能是有用的。结果，学习模型不仅灌输了任务偏见，而且还灌输了数据集偏见，因为它高度依赖于带注释的样本，对于弱监督模型也是如此。认识到这一点，我们提出了一种自我监督的学习框架，以从未标记的视频帧中解开这种变化。我们利用有关人体骨骼和姿势的先验知识，其形式为基于单个零件的2D人偶模型，人体姿势关节约束和一组未配对的3D姿势。我们的差异化形式弥合了3D姿势和空间零件图之间的表示差异，不仅有助于发现可解释的姿势解缠结，而且还允许我们对具有不同摄像机运动的视频进行操作。对看不见的野生数据集的定性结果建立了我们超越3D姿态估计和零件分割等主要任务的跨多个任务的出色综合性。此外，我们在Human3.6M和MPI-INF 3DHP数据集上展示了最新的弱监督3D姿态估计性能。

[10].PandaNet: Anchor-Based Single-Shot Multi-Person 3D Pose Estimation

作者 | Abdallah Benzine, Florian Chabot, Bertrand Luvison, Quoc Cuong Pham, Catherine Achard

单位 | CEA LIST Vision and Learning Lab for Scene Analysis；索邦大学

摘要：最近，已经提出了几种用于3D人体姿势估计的深度学习模型。然而，这些方法中的大多数仅专注于单人案例或以高分辨率估计少数人的3D姿势。此外，诸如自动驾驶或人群分析之类的许多应用要求可能以低分辨率对大量人员的姿势进行估计。在这项工作中，我们介绍了PandaNet（基于姿势估计和基于探测锚的网络），这是一种新的基于单点，基于锚的多人3D姿态估计方法。提出的模型执行边界框检测，并且对于每个检测到的人，将2D和3D姿态回归为单个前向通过。它不需要任何后处理即可重新组合关节，因为网络可以预测每个边界框的完整3D姿势，并且可以以低分辨率对可能有大量人的姿势进行估计。为了管理人员重叠，我们引入了“姿势感知锚定选择”策略。此外，由于图像中不同人的大小之间存在不平衡，并且关节坐标根据这些大小而具有不同的不确定性，因此我们提出了一种自动优化与不同人的大小和关节相关的权重以进行有效训练的方法。 PandaNet在几个具有挑战性的数据集上超越了以前的单发方法：一个多人城市虚拟但非常逼真的数据集（JTA数据集）和两个现实世界3D多人数据集（CMU Panoptic和MuPoTS-3D）。

[11].Multiview-Consistent Semi-Supervised Learning for 3D Human Pose Estimation

作者 | Rahul Mitra, Nitesh B. Gundavarapu, Abhishek Sharma, Arjun Jain

单位 | 印度理工学院孟买分校;加利福尼亚大学圣迭戈分校;Axogyan AI;IISc Bangalore

摘要：从单眼图像估计3D人体姿态的最佳性能方法需要大量的野生2D和受控3D姿态标注数据集，这些数据集成本高昂并且需要复杂的系统来获取。为了减少这种注释依赖性，我们提出了多视图一致半监督学习（MCSS）框架，该框架利用来自人类运动的未注释，未经校准但已同步的多视图视频的姿势信息中的相似性，作为附加的弱监督信号来指导3D人体姿势回归。我们的框架基于多视图视频中的时间关系应用硬性否定挖掘，以实现多视图一致的姿势嵌入。当使用有限的3D姿势注释进行联合训练时，我们的方法可将基线提高25％，将最新技术提高8.7％，同时使用更小的网络。最后，但重要的是，我们展示了学习嵌入的优势，并在两个流行的，公开可用的多视图人类姿态数据集Human 3.6M和MPI-INF-3DHP上建立了视图不变姿态检索基准，以方便将来的研究。

[12].Optical Non-Line-of-Sight Physics-Based 3D Human Pose Estimation

作者 | Mariko Isogawa, Ye Yuan, Matthew O'Toole, Kris M. Kitani

单位 | 卡内基梅隆大学

网站 | https://marikoisogawa.github.io/project/nlos_pose

GitHub：https://github.com/marikoisogawa/OpticalNLOSPose

摘要：我们描述了一种通过光学非视距（NLOS）成像系统获取的瞬态图像（即光子的3D时空直方图）进行3D人体姿态估计的方法。通过使用环境间接反射的光线，我们的方法可以通过“环顾四周”来感知3D人体姿势。我们将NLOS成像，人体姿势估计和深度强化学习等多种技术融合在一起，以构建将数据流的原始流转换为完整3D人体姿势序列估计的端到端数据处理管道。我们的贡献是数据表示过程的设计，其中包括：（1）可学习的逆点扩展函数（PSF），用于将原始瞬态图像转换为深度特征向量；（2）以瞬态图像特征为条件并从与物理模拟器的交互中学习的神经人形控制策略；（3）一种基于深度数据的数据合成和增强策略，可以将其传输到现实世界的NLOS成像系统。我们的初步实验表明，我们的方法能够推广到现实世界的NLOS测量，以估算物理上有效的3D人体姿势。

[13].Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation

作者 | Matteo Fabbri, Fabio Lanzi, Simone Calderara, Stefano Alletto, Rita Cucchiara

单位 | University of Modena and Reggio Emilia；松下美国研发公司

GitHub：https://github.com/fabbrimatteo/LoCO

摘要：在本文中，我们提出了一种从单眼RGB图像进行自下而上的多人3D人体姿势估计的新颖方法。我们建议使用高分辨率体积热图对关节位置进行建模，设计一种简单有效的压缩方法来大幅减少此表示的大小。所提出方法的核心是我们的体积热图自动编码器，它是一个完全卷积的网络，负责将真实的热图压缩为密集的中间表示形式。然后训练第二个模型Code Predictor预测这些代码，可以在测试时将其解压缩以重新获得原始表示。我们的实验评估表明，在多人和单人3D人体姿态估计数据集上，与最新技术相比，我们的方法表现良好，而且由于采用了新颖的压缩策略，因此可以在8 fps的恒定运行时间下处理FullHD图像不管场景中的被摄对象数量如何。代码和模型是公开可用的。

[14].Cascaded Deep Monocular 3D Human Pose Estimation With Evolutionary Training Data

作者 | Shichao Li, Lei Ke, Kevin Pratama, Yu-Wing Tai, Chi-Keung Tang, Kwang-Ting Cheng

单位 | 香港科技大学；腾讯

摘要：端到端深度表示学习在单眼3D人体姿势估计中已经取得了显着的准确性，但是对于模型有限且固定的训练数据中看不见的姿势，这些模型可能会失败。本文提出了一种新颖的数据增强方法：（1）可扩展用于合成大量的训练2D到3D网络的训练数据（超过800万有效的3D人体姿势和相应的2D投影），（2）可以有效地减少数据集偏差。我们的方法基于先验知识的启发，根据分层的人类表示和启发式方法，演化出有限的数据集，以合成看不见的3D人体骨骼。大量的实验表明，我们的方法不仅可以在最大的公开基准上达到最先进的准确性，而且可以将其更好地推广到看不见和罕见的姿势。相关文件和工具可在项目网站上找到

[15].MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

作者 | Rongchang Xie, Chunyu Wang, Yizhou Wang

单位 | 北大；微软亚洲研究院；深睿医疗AI实验室

摘要：交叉视图特征融合是解决人体姿势估计中遮挡问题的关键。当前的融合方法需要为每对相机训练一个单独的模型，从而使其难以缩放。在这项工作中，我们介绍了MetaFuse，这是一种预训练的融合模型，是从Panoptic数据集中的大量摄像机中学到的。使用少量标记的图像，可以针对新的一对摄像机对模型进行有效调整或微调。 MetaFuse强大的适应能力在很大程度上归因于拟议中的将原始融合模型分解为两个部分：（1）所有相机共享的通用融合模型，以及（2）依赖于相机的轻量级转换。此外，通过元学习样式算法从许多相机中学习通用模型，以最大化其对各种相机姿势的适应能力。我们在实验中观察到，在公共数据集上微调的MetaFuse在很大程度上优于最新技术，这证明了其在实践中的价值。

[16].Fusing Wearable IMUs With Multi-View Images for Human Pose Estimation: A Geometric Approach

作者 | Zhe Zhang, Chunyu Wang, Wenhu Qin, Wenjun Zeng

单位 | 东南大学；微软亚洲研究院

GitHub：https://github.com/CHUNYUWANG/imu-human-pose-pytorch

摘要：我们建议从多视图图像和附着在人肢体上的一些IMU估计3D人体姿势。它首先通过从两个信号检测2D姿势，然后将它们提升到3D空间来进行操作。我们提出了一种基于IMU的几何方法，以增强每对关节的视觉特征。尤其是当一个关节被遮挡时，这可以显着提高2D姿态估计的准确性。我们称这种方法为定向正则化网络（ORN）。然后，我们通过定向规则化图形结构模型（ORPSM）将多视图2D姿势提升到3D空间，该模型共同最小化3D和2D姿势之间的投影误差，以及3D姿势和IMU方向之间的差异。简单的两步方法大大减少了公共数据集上的最新技术错误。

[17].Lightweight Multi-View 3D Pose Estimation Through Camera-Disentangled Representation

作者 | Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang

单位 | 洛桑联邦理工学院；Facebook Reality Labs

摘要：我们提供了一种轻巧的解决方案，可以从使用空间校准相机捕获的多视图图像中恢复3D姿势。基于可解释表示学习的最新进展，我们利用3D几何体将输入图像融合到统一的潜在姿势表示中，该姿势可以从相机视点中解脱出来。这使我们能够有效地推理出不同视图之间的3D姿势，而无需使用计算密集型体积网格。然后，我们的架构将所学的表示形式限制在摄像机投影算子上，以产生准确的Perview 2D检测，可以通过可微分的直接线性变换（DLT）层将其简单地提升为3D。为了有效地做到这一点，我们提出了一种DLT的新颖实现，它在GPU架构上比基于标准SVD的三角剖分方法要快几个数量级。我们在两个大型人体姿势数据集（H36M和Total Capture）上评估了我们的方法：我们的方法优于或优于最新的体积方法，而与之不同的是，它们可以产生实时性能。

看论文是每个研究生的必修课，今天整理了CVPR2020和自己研究方向相关的论文，总结一下最新的工作，又有了一些启发，也让接下来的研究路径更加清晰，介绍了这些论文，最重要的还是要去做实验，虽然无法返回实验室，没法向以前一样做实验了，但是好在我还可以用智星云，远程去做实验，和之前用过的云GPU相比，智星云还是非常好用的，环境都是配置好了的，用来做实验非常节省时间和精力。有同样需求的朋友可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

一件事无论太晚或者对于我来说太早，

都不会阻拦你成为你想成为的那个人，

这个过程没有时间的期限，只要你想，随时都可以开始，

要改变或者保留原状都无所谓，

做事本不应该有所束缚，

我们可以办好这件事却也可以把它搞砸，

但我希望最终你能成为你想成为的人。

For what it’s worth, it’s never too late,

Or in my case, too early,

To be whoever you want to be.

There’s no time limit, stop whenever you want.

You can change or stay the same.

There’s no rules to this thing.

We can make the best or the worst of it.

I hope you make the best of it.

我希望你有时能驻足于这个令你感到惊叹的世界，

体会你从未有过的感觉；

我希望你能见到其他与你观点不同的人们；

我希望你能有一个值得自豪的人生，

如果你想象的生活不一样；

我希望你能有勇气重新再来。

I hope you see things that startle you.

I hope you feel things you never felt before.

I hope you meet people with a different point of view.

I hope you live a life you’re proud of.

If you find that you are not,

I hope you have the strength to start all over again.

——本杰明巴顿奇事

PEACE

参考资料：

http://openaccess.thecvf.com/CVPR2020.py

http://www.ai-galaxy.cn/

https://shop36573300.taobao.com/

孙琪翔

关注

3
点赞
踩
57

收藏

觉得还不错? 一键收藏
1
评论
2020CVPR人体姿态估计论文盘点

Hey，今天总结盘点一下2020CVPR论文中涉及到人体姿态估计的论文。人体姿态估计分为2D（6篇）和3D（11篇）两大类。2D 人体姿态估计[1].UniPose: Unified Human Pose Estimation in Single Images and Videos作者 | Bruno Artacho, Andreas Savakis单位 | 罗切斯特理工学院摘要：我们提出了一个统一的人体姿态估计框架UniPose，它基于我们的“瀑布式”萎缩空间池架构，在多个姿态估.
复制链接

扫一扫