人体姿态估计&动作识别
视频演示
Refs: https://www.zhihu.com/zvideo/1227562268420235264
姿态估计与行为识别(行为检测、行为分类)的区别
姿态估计
- 定位图片和视频中的人体关节,重建人的关节和肢干。
- 四个方向:
- 单人姿态估计(Single-Person Skeleton Estimation):先定位人体,再根据行人区域,找出关键点。
- 多人姿态估计(Multi-Person Pose Estimation):两种方式:
- Top-down: 先定位到图片中的所有人体,在找出关键点。
- bottom-up:先找出关键点,再组装成行人。
- 人体姿态跟踪(Video Pose Tracking):
- 人体关键点在视频中的temporal motion会比较大,比如一个行走的行人,手跟脚会不停的摆动,所以跟踪难度会比跟踪人体框大。
- 数据集:PoseTrack
- 3D人体姿态估计(3D skeleton Estimation): ^764e2c
- VS 2D:
- 2D姿势估计:从RGB图像估计每个关节的2D姿势(x,y)坐标。
- 3D姿势估计:从RGB图像估计3D姿势(x,y,z)坐标。
- 即使基于轻量主干网络(MobileNetV2)所预测的2D姿态用于动作识别时,效果也好于任何来源的3D人体姿态估计。Ref
- 数据集:Human3.6M
- VS 2D:
行为识别(Action Detection/Regnition)
概述
- 图像或视频中目标的行为类别。
- 两个方向:
- 行为分类(Action Recognition)
- 定义:一般使用的数据集会将动作分割好,一个视频片段包含一段明确的动作。
- 特点:时间短且有唯一确定标签。所以input为视频,输出为label。类似Image Classification。
- 数据集:
- https://zhuanlan.zhihu.com/p/86461157 (都是剪切好的视频,不符合行为检测的要求)
- 行为检测(Temporal Action Localizationÿ
- 行为分类(Action Recognition)