Wei, Shih-En, et al. “Convolutional Pose Machines.” CVPR, 2016
本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。目前在2016年的MPII竞赛中名列前茅。作者在github提供了训练和测试源码。
本文详解其思想和实践方法,并指出源码与论文中不同之处。
思想
本文的特色有三:
1.用各部件响应图来表达各部件之间的空间约束。响应图和特征图一起作为数据在网络中传递。
2.网络分为多个阶段(stage)。各个阶段都有监督训练,避免过深网络难以优化的问题。
3.使用同一个网络,同时在多个尺度处理输入的特征和响应。既能确保精度,又考虑了各个部件之间的远距离关系。
算法的流程如下:
- 在每一个尺度下,计算各个部件的响应图
- 对于每个部件,累加所有尺度的响应图,得到总响应图
- 在每个部件的总响应图上,找出相应最大的点,为该部件位置
重点在第一步。以下依次讲解:如何设计网络来计算响应图,以及如何训练网络。
网络结构
网络输入彩色图像(绿色ori image)。以半身模型为例,分为四个阶段(stage)。每个阶段都能输出各个部件的响应图(蓝色score),使用时以最后一个阶段的响应图输出为准。
center map(绿色)是一个提前生成的高斯函数模板,用来把响应归拢到图像中心。