paper title: Human Pose Estimation with Iterative Error Feedback
paper link: https://arxiv.org/abs/1507.06550
oral or demo video:https://www.youtube.com/watch?v=dQ5Fa5IFaJ4
https://www.youtube.com/watch?v=p5n_apqyIwQ(网友测评)
project: -
github:https:https://github.com/pulkitag/ief
conf & anthor: CVPR 16,Joao Carreira et al
arXiv submit v1: 2015.07 google citation:286(2019.07.12)
姿态估计系列:
- DeepPose - human pose estimation via deep nerual networks
- Efficient Object Localization Using Convolutional Networks
- Convolutional Pose Machines
- Human Pose Estimation with Iterative Error Feedback
- Hourglass Network - stacked hourglass network for human pose estimation
- OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
- RMPE: Regional Multi-person Pose Estimation
- Pose flow: Efficient Online Pose Tracking
- CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
主要内容:
前馈结构(如卷积神经网络)通常能够学习到输入空间的良好表达,但是无法在输出空间中对依赖关系进行显式的建模,例如人体姿态估计和物体分割任务中的结构化关系。这篇文章主要内容是提出了一个通用的框架,通过从输入和输出的联合空间学习特征提取器,对输入和输出空间中丰富的结构化信息进行建模。文章引入了自顶向下的反馈机制,不直接预测目标输出,而是在前馈过程中,预测当前估计的偏差并反馈迭代修正预测值,文中称之为IEF(Iterative Error Feedback)。
网络结构:
IEF的基本结构如下图所示:
其中:
- I I I表示输入的图像;
- ϵ t \epsilon_t ϵt表示预测输出与真实值的偏差(可以看做是一个坐标的offset);
- y t y_t yt表示第t次迭代后的预测输出输出,由上一次的 y t − 1 y_{t-1} yt−1和当前预测的 ϵ t \epsilon_t ϵt得到,可以是直接相加,也可以是其他的非线性函数;
- x t = I ⨁ y t x_t=I\bigoplus{y_t} xt=I⨁yt为卷积网络的输入, ⨁ \bigoplus ⨁表示concat;
- f ( ) f() f()表示前馈网络;
- g ( ) g() g()表示从预测输出到视觉表示的一个映射,比如从输出的关节点位置到使用高斯分布模拟的heat map的映射;
整个过程可以用数学表达式表示为:
ϵ t = f ( x t ) ( 1