姿态估计
定义:从给定的图像中识别人脸、手部、身体等关键点,即输入图像,输出人体关键点的坐标
基本思路:
一、基于回归
将关键点检测问题建模成一个回归问题,让模型直接回归关键点的坐标,即(x1,y1..,.,.y)= f(I)
一、基于热力图
并不直接回归关键点的坐标,而是预测关键点位于每个位置的概率,即 H... = fo(I)
H)(Ky,y)= 1表示关键点j位于(xj yj)的概率为1,H称为热力图,尺寸与原图Ⅰ相同或按比例缩小
热力图可以基于原始关键点坐标生成,作为训练网络的监督信息
网络预测的热力图也可以通过求极大值等方法得到关键点的坐标
模型预测热力图比直接回归坐标相对容易,模型精度相对更高,因此主流算法更多基于热力图但预测热力图的计算消耗大于直接回归
基于回归的自顶向下方法:
Deeppose(2014)
优势:
。回归模型理论上可以达到无限精度,热力图方法的精度受限于特征图的空间分辨率
。回归模型不需要维持高分辨率特征图,计算层面更高效,相比之下,热力图方法需要计算和存储高分辨率的热力图和特征图,计算成本更高
劣势:
·图像到关键点坐标的映射高度非线性,导致回归坐标比回归热力图更难,回归方法的精度也弱于热力
图方法,因此DeepPose提出之后的很长一段时间内,2D关键点预测算法主要基于热力图
Hourglass(2016)
方法:单阶段方法
- SPM
方法:基于Transformer
- PRTR
- TokenPose