论文阅读:《Towards accurate multi-person pose estimation in the wild》CVPR 2017

网络框架

论文采用top-down的结构,分为两个阶段:
第一阶段使用faster rcnn做detection,检测出图片中的多个人,并对bounding box进行image crop;
第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset;
最后通过heatmap和offset的融合得到关键点的精确定位。
这里写图片描述

具体细节

Person Box Detection

人物bbox检测的faster rcnn的backbone是inception-Resnet,先在COCO的80个类别数据集上进行训练,再在只有person的bounding box上进行fine tune。

Person Pose Estimation

采用分类和回归的方法,得到关节点的heatmap和坐标offset。

Heatmap for classification:对于每一个空间点,先判断它是否在关节点的附近,生成K通道的heatmap,K是关节点的个数。
Offset for regression:对每一个空间点再预测一个2D的坐标来表示关节点的位置。将heatmap和offset做一个融合得到精确关节点位置。

Image cropping

对于每一个bounding box做裁剪的时候保持人体的纵横比,最终得到的crop image是353*257pixel,纵横比保持1.37,对于宽和高不是该比例的,扩大较短边。

Heatmap & offset fusion

输入是heatmap(K channel,每一个关键点一个channel)和offset(2*K channel,每一个关键点两个channel,分别是x和y坐标),输出是3*K个channel。

关于融合,对于每一个关节点和每一个空间位置,计算该位置是关节点的概率,这样生成K个关键点,之后将这个问题转换为一个二分类问题。另一方面,预测每一个位置与标准位置的距离,将其转换为一个2D回归问题。这样就将融合分成了二分类和2D回归两个问题。

效果

论文中声称其准确度要高于Mask RCNN,增加数据集会获得更好效果,mAP达到64.9%。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值