人体姿态估计2014-2017

本文介绍了人体姿态估计领域的常用数据集,如Posetrack、LSP、FLIC、MPII、MSCOCO和AI Challenge,并概述了2014年至2017年的主流方法,包括单人和多人姿态估计的技术挑战、算法思路及代表性研究。在单人姿态估计中,强调了Hourglass结构的重要性;多人姿态估计则探讨了Top-Down和Bottom-Up两种方法,以及相关工作如DeepCut和PAFs。文章还提及了预处理和后处理技巧的关键作用。
摘要由CSDN通过智能技术生成


一、常用数据集

Pose Estimation/keypoint常用数据集

1. Posetrack:posetrack.net/

  • > 500 video sequences
  • > 20K frames
  • > 150K body pose annotations
  • 3 challenges

2. LSP:sam.johnson.io/research

  • 样本数:2K
  • 关节点个数:14
  • 全身,单人

3. FLIC:bensapp.github.io/flic-

  • 样本数:2W
  • 关节点个数:9
  • 全身,单人

4. MPII:human-pose.mpi-inf.mpg.de

  • 样本数:25K
  • 关节点个数:16
  • 全身,单人/多人,40K people,410 human activities

5. MSCOCOcocodataset.org/#

  • 样本数:>= 30W
  • 关节点个数:18
  • 全身,多人,keypoints on 10W people

6. AI Challengechallenger.ai/competiti

  • 样本数:21W Training, 3W Validation, 3W Testing
  • 关节点个数:14
  • 全身,多人,38W people

二、主流方法

2D Pose estimation主要面临的困难:遮挡、复杂背景、光照、真实世界的复杂姿态、人的尺度不一、拍摄角度不固定等。

单人姿态估计

传统方法:基于Pictorial Structures, DPM

▪ 基于深度学习的算法包括直接回归坐标(Deep Pose)和通过热力图回归坐标(CPM, Hourlgass)

目前单人姿态估计,主流算法是基于Hourlgass各种更改结构的算法。

多人姿态估计

二维图像姿态估计基于CNN的多人姿态估计方法,通常有2个思路(Bottom-Up Approaches和Top-Down Approaches):

(1)Top-Down Approaches,即two-step framework,就是先进行行人检测,得到边界框,然后在每一个边界框中检测人体关键点,连接成一个人形,缺点就是受检测框的影响太大,漏检,误检,IOU大小等都会对结果有影响,算法包括RMPE、Mask-RCNN 等。

(2)Bottom-Up Approaches,即part-based framework,就是先对整个图片进行每个人体关键点部件的检测,再将检测到的部件拼接成一个人形,缺点就是会将不同人的不同部位按一个人进行拼接,代表方法就是openpose、DeepCut 、PAFs。

tricks

  • 采用多尺度,多分辨率的网络结构
  • 采用基于Residual Block来构建网络
  • 扩大感受野(large kernel, dilation convolution, Spatial Transformer Network、hourglass module)
  • 预处理很重要(将人放在输入图片的中心,人的尺度尽量归一化到统一尺度,对图片进行翻转、旋转)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值