论文分享 Simple Baselines for Human Pose Estimation and Tracking

最新推荐文章于 2022-11-07 22:36:22 发布

Klay Ye

最新推荐文章于 2022-11-07 22:36:22 发布

阅读量283

点赞数

分类专栏：论文分享文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_34275246/article/details/117998909

版权

论文分享专栏收录该内容

22 篇文章 1 订阅

订阅专栏

Bin Xiao1∗, Haiping Wu2∗†, and Yichen Wei1 1Microsoft Research Asia ECCV2018
https://github.com/microsoft/human-pose-estimation.pytorch

摘要

近年来，在姿态估计方面取得了显著的进展，并且对姿态跟踪的兴趣日益增加。同时，整体算法和系统复杂度也随之增加，使得算法分析和比较更加困难。这项工作提供了简单有效的基线方法。它们有助于激发和评估该领域的新想法。在具有挑战性的基准测试中获得最先进的结果。

介绍

这项工作为姿态估计和跟踪提供了基线方法。它们非常简单，但却出奇的有效。因此，他们希望有助于激发新的想法和简化他们的评估。在这项工作中，我们的姿态估计是基于主干网络ResNet [13]上添加的几个反卷积层。这可能是从深度和低分辨率特征图估计heatmap的最简单方法。在COCO test-dev split上，我们的单一模型的最佳结果在mAP上达到了73.7的最先进水平，比COCO 2017关键点挑战赛的单一模型及其集成模型分别提高了1.6%和0.7%[6，9]。我们的姿势追踪跟ICCV 17年姿势追踪挑战[2]的获胜者[11]类似。单人姿势估计使用我们自己的方法，如上。姿势跟踪使用与[11]中相同的贪婪匹配方法。我们唯一的修改是使用基于光流的姿态传播和相似性测量。

在这里插入图片描述

Hourglass[22]是MPII基准的主要方法，因为它是所有领先方法的基础[8，7，33]。它采用多级架构，具有重复的自底向上、自顶向下处理和跳过层功能连接。
7.Chen, Y., Shen, C., Wei, X.S., Liu, L., Yang, J.: Adversarial posenet: A structure-aware convolutional network for human pose estimation. In: IEEE International Conference on Computer Vision. pp. 1212–1221 (2017)
8.Chu, X., Yang, W., Ouyang, W., Ma, C., Yuille, A.L., Wang, X.: Multi-context attention for human pose estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1831–1840 (2017)
33.Yang, W., Li, S., Ouyang, W., Li, H., Wang, X.: Learning feature pyramids for human pose estimation. In: IEEE International Conference on Computer Vision(2017)
Cascaded pyramid network(CPN) [6]是COCO 2017关键点挑战[9]的领先方法。它还包括skip layer feature concatenation和online hard keypoint mining step。

比较图1中的三种体系结构，很明显，我们的方法与[22，6]的不同之处在于如何生成高分辨率的特征图。这两个作品[22，6]都使用上采样来提高特征图的分辨率，并将卷积参数放在其他块中。相反，我们的方法以更简单的方式将上采样和卷积参数结合到去卷积层中，而不使用跳过层连接。

训练

地面真实人体模型是按照固定的长宽比制作的，例如，通过在高度或宽度上扩展框，使高度:宽度= 4 : 3。然后将其从图像中裁剪并调整到固定的分辨率。默认分辨率为256 : 192。为了公平比较，它与最先进的方法[6]相同。数据增加包括缩放(30%)、旋转(40度)和翻转。我们的ResNet [13]主干网络是通过对ImageNet分类任务[28]进行预训练来初始化的。在姿态估计的训练中，基础学习率为1e-3。90个纪元降到1e-4，120个纪元降到1e-5。一共140个纪元。迷你批量128。亚当[18]使用了优化器。使用一个GPU服务器上的四个GPU。对深度为50、101和152层的ResNet进行了实验。除非另有说明，否则默认情况下使用ResNet-50。

Klay Ye

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文分享 Simple Baselines for Human Pose Estimation and Tracking

Bin Xiao1∗, Haiping Wu2∗†, and Yichen Wei1 1Microsoft Research Asia ECCV2018https://github.com/microsoft/human-pose-estimation.pytorch摘要近年来，在姿态估计方面取得了显著的进展，并且对姿态跟踪的兴趣日益增加。同时，整体算法和系统复杂度也随之增加，使得算法分析和比较更加困难。这项工作提供了简单有效的基线方法。它们有助于激发和评估该领域的新想法。在具有挑战性的基准测试中获得
复制链接

扫一扫

专栏目录