LSTM Pose Machines论文总结

最新推荐文章于 2024-05-26 23:00:11 发布

明若

最新推荐文章于 2024-05-26 23:00:11 发布

阅读量2.1k

点赞数 2

文章标签： pose estimation

本文链接：https://blog.csdn.net/weixin_43122854/article/details/83005249

版权

概述

本文是在CPM的基础上做了一些改进，克服了CPM用于视频pose estimation时计算代价昂贵及帧之间缺乏几何连续性的缺点。阅读论文前需要先理解CPM。

原理与结构

CPM

式（1）为CPM：
s为结构的级数，共S级；
X为原始图像，被送到每一级，其尺寸为 $W\times H\times C$ ,即宽、高、通道数；
$F_{s}(\cdot )$ 为s级的特征提取网络，是ConvNet；
$g_{s}(\cdot )$ 为s级的预测网络，也是ConvNet；
$b_{s}$ 表示s级预测出的结果–belief map，其尺寸为 $W\times H\times (P+1)$ ，P表示关节点总数（+1表示背景），所以 $b_{s}$ 能够表示出第s级每个关节点分布在每个坐标点的置信值；
$\bigoplus$ 符号表示concatenate操作，就是直接堆叠起来。
总结起来，这个公式的意思就是：在第一级，将图像输入预测网络，预测出第一级的belief map，之后的所有级，将原图像经过特征提取网络先提取特征，再将结果和前一级的belief map进行concatenate操作，再输入预测网络，得到每一级的belief map。
RPM（CPM+RNN→Recurrent Pose Machine）

要应用到视频，一帧一帧处理，自然用到RNN。
$t$ 表示帧数，也表示级数， $T$ 为总级数，故： $1\leq t\leq T$ ;
$X_{t}$ 表示视频中的第t帧图像，即连续帧输入连续级；
$b_{t}$ 表示第t帧图像的belief map；
$g_{0}$ 相当与第一级的特征提取器和预测器的综合；
$\cdot)$ 表示第二级及以后级的预测器，它们共享结构和权值；
$F(\cdot)$ 特征提取函数也是共享的，节约了不少参数。
LSTM PM（LSTM+CPM→LSTM Pose Machine）

$\widetilde{L}(\cdot)$ 表示LSTM模块，起到遗忘过去接收当前信息的作用，同时也起到了特征提取的作用，所以此处的 $\cdot)$ 就表示所有级的预测器，它们共享参数；
$F^{'}(\cdot)$ 表示第一级的特征提取器，比起其他级要深一些，也可以表示为： $F_{0}(X_{t})\bigoplus F(X_{t})$ ，所以其实就是在其他级的特征提取器网络之前再放一个Conv网络。
LSTM PM的结构

ConvNet1即 $F_{0}$ ，ConvNet2即 $F$ ，frame经特征提取网络后与上级的belief map（即灰色的方块）及Gaussian map concatenate在一起，经预测网络得到本级belief map。
此处的LSTM为卷积LSTM：公式(4)
$g_{t}=\varphi (W_{xg}*X_{t}+W_{hg}*h_{t-1}+\epsilon _{g})$ ,
$i_{t}=\sigma (W_{xi}*X_{t}+W_{hi}*h_{t-1}+\epsilon _{i})$ ,
$f_{t}=\sigma (W_{xf}*X_{t}+W_{hf}*h_{t-1}+\epsilon _{f})$ ,
$o_{t}=\sigma (W_{xo}*X_{t}+W_{ho}*h_{t-1}+\epsilon _{o})$ ,
$C_{t}=f_{t}\bigodot C_{t-1}+i_{t}\bigodot g_{t}$ ,
$h_{t}=o_{t}\bigodot \varphi (C_{t})$
" $*$ "操作为卷积，卷积核为 $3\times 3$ ；
“ $+$ ”为对应元素相加；
此处的输入 $X_{t}$ 为上一级的输出belief map；
对于第一级： $C_{1}=i_{1}\bigodot g_{t}$
loss function
首先在每个关节的正确位置放置高斯峰，从而生成真值heat maps(ground truth belief map);
计算每一级每一个关节预测belief map与groud truth belief map的L2距离：
$F=\sum_{t=1}^{T}\sum_{p=1}^{P}\left \| b_{t}(p)-g.t._{t}(p) \right \|$

其他细节

数据增强
在每个patch上进行缩放、旋转、镜像、裁剪
参数设置
基于CPM的预训练模型，选用它前两级的参数；
用此文中提出的结构，但每级都输入同样的图片，设置级数为6，参数设置为CPM模型中选出的参数；
在LSP和MPII数据集上进行fine-tune。
还有一些其他训练参数的设置，如级数、学习率等等。
测试
测试时也将数据进行缩放，缩放的范围必须在训练时缩放的参数范围之内；
计算结果时将这几种尺度的结果求和或平均，得出预测结果。
判断是否预测正确的标准是PCK方法。
测试需要bounding box，如果想测试自己的数据的话需要先标注好bbox（与CPM不同）。
论文给出的代码只是测单人的，如果想要测多人视频的话，标好并组织好bbox数据再加个循环，比用CPM测多人视频时使用高斯响应测人的位置快得多。

明若

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
LSTM Pose Machines论文总结

概述本文是在CPM的基础上做了一些改进，克服了CPM用于视频pose estimation时计算代价昂贵及帧之间缺乏几何连续性的缺点。阅读论文前需要先理解CPM。原理与结构CPM式（1）为CPM：s为结构的级数，共S级；X为原始图像，被送到每一级，其尺寸为W×H×CW\times H\times CW×H×C,即宽、高、通道数；Fs(⋅)F_{s}(\cdot )Fs(⋅)为...
复制链接

扫一扫