1.什么是人体姿态估计?
答:从给定的图像中识别人脸、手部、身体的关键点。
2. 3D姿态估计?
答:就是预测人体关键点在三维空间中的坐标,在三维空间中还原人体的姿态。
进一步我们可以从图像或者视频中恢复出运动的3D人体模型
3 姿态估计后的下游任务有什么?
答:行为识别、CG动画、人机交互、动物行为分析。
2D人体姿态估计:在图像上定位人体关键点(通常为主要关节)的坐标
思路1: 将关键点检测问题建模成一个回归问题,让模型直接回归关键点的坐标,即
但使用深度模型直接回归坐标有困难,精度不是最优。
思路2:基于热力图(Heatmap Based),并不直接回归关键点的坐标,而是预测关键点位于每个位置的概率,即,表示关键点 j 位于 的概率为1, H 称为热力图,尺寸与原图 I 相同或按比例缩小
热力图可以基于原始关键点坐标生成,作为训练训练网络的监督信息
网络愚蠢的热力图也可以通过求极大值等方法得到关键点的坐标
模型预测热力图比直接回归坐标相对容易,模型精度相对更高,因此主力算法更多基于热力图,但预测热力图的计算消耗大于直接回归
从数据标注生成热力图:
(这样热力图相当于一个高斯概率图)
问题:如何从第 j 各关键点的热力图 H 中还原关键点位置?
朴素方法:求热力图最大值位置
Integral Human Pose Regression:归一化热力图形成点位于不同为主的概率,再计算位置的期望,优点:可微分,连续没有量化误差
多人姿态估计:自顶向下方法
DeepPose:以分类网络为基础,将最后一层分类改为回归,一次性预测所有关键点的坐标,通过最小化平方误差训练网络。可以通过级联提升精度
优势:1.回归模型理论上可以达到无限精度
2.不需要维持高分辨率特征图,计算层面更高效
劣势:1. 图像到关键点坐标的映射高度非线性,导致回归坐标比回归热力图更难,回归方法的精度也弱于热力图方法。因此DeepPose提出之后很长一段时间内,2D关键点检测预测方法主要基于热力图
RLE:对关键点的位置进行更准确的概率建模,从而提高位置预测的精度。
基于二范数误差的回归和基于高斯似然的最大估计是等价的。
因而,二范数回归隐含了关键点位置符合固定方差的各向同性的高斯分布的假设
RLE的思路即是将简单的高斯分布替换为一个可学习的、表达能力更强的分布,更好拟合关键点位置的实际分布。
完成RLE模型:
标准化流 Normalizing Flow:一种生成建模方法,通过一系列可学习的可逆的映射,将标准分布的随机变量映射成复杂分布的随机变量,可用于建模复杂的概率分布
图中 f 可由神经网络构建,从而可以通过调整网络参数拟合不同的概率密度函数。
给定一系列数据,通过最大似然计算最优模型参数,使模型最佳拟合这组数据
自底向上:
Hourglass:
设计思路:准确的姿态估计需要结合不同尺度的信息:
Simple Baseline:力求结构简单,使用ResNet配合反卷积形成编码器-解码器结构
HRNet:在下采样时通过保留原分辨率分支来支持网络全过程特征图的高分辨与空间位置信息,并设计了独特的网络结构实现不同分辨率的多尺度特征融合(感觉和ResNet是一个思路)
关键点与肢体的预测:肢体方法的真值可根据关键点标注生成
肢体定义的关键点亲和度:
基于亲和度匹配关键点: