论文阅读：《Towards accurate multi-person pose estimation in the wild》CVPR 2017

最新推荐文章于 2025-04-14 17:04:46 发布

青青韶华

最新推荐文章于 2025-04-14 17:04:46 发布

阅读量7.7k

点赞数 1

分类专栏：人体姿态估计文章标签：深度学习与计算机视觉论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36165459/article/details/78322449

版权

人体姿态估计专栏收录该内容

12 篇文章

订阅专栏

网络框架

论文采用top-down的结构，分为两个阶段:
第一阶段使用faster rcnn做detection，检测出图片中的多个人，并对bounding box进行image crop；
第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset;
最后通过heatmap和offset的融合得到关键点的精确定位。
这里写图片描述

具体细节

Person Box Detection

人物bbox检测的faster rcnn的backbone是inception-Resnet，先在COCO的80个类别数据集上进行训练，再在只有person的bounding box上进行fine tune。

Person Pose Estimation

采用分类和回归的方法，得到关节点的heatmap和坐标offset。

Heatmap for classification：对于每一个空间点，先判断它是否在关节点的附近，生成K通道的heatmap，K是关节点的个数。
Offset for regression：对每一个空间点再预测一个2D的坐标来表示关节点的位置。将heatmap和offset做一个融合得到精确关节点位置。

Image cropping

对于每一个bounding box做裁剪的时候保持人体的纵横比，最终得到的crop image是353*257pixel，纵横比保持1.37，对于宽和高不是该比例的，扩大较短边。

Heatmap & offset fusion

输入是heatmap（K channel，每一个关键点一个channel）和offset（2*K channel，每一个关键点两个channel，分别是x和y坐标），输出是3*K个channel。

关于融合，对于每一个关节点和每一个空间位置，计算该位置是关节点的概率，这样生成K个关键点，之后将这个问题转换为一个二分类问题。另一方面，预测每一个位置与标准位置的距离，将其转换为一个2D回归问题。这样就将融合分成了二分类和2D回归两个问题。

效果

论文中声称其准确度要高于Mask RCNN，增加数据集会获得更好效果，mAP达到64.9%。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。