Wei, Shih-En, et al. “Convolutional Pose Machines.” CVPR, 2016
本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。目前在2016年的MPII竞赛中名列前茅。作者在github提供了训练和测试源码。
本文详解其思想和实践方法,并指出源码与论文中不同之处。
思想
本文的特色有三:
1.用各部件响应图来表达各部件之间的空间约束。响应图和特征图一起作为数据在网络中传递。
2.网络分为多个阶段(stage)。各个阶段都有监督训练,避免过深网络难以优化的问题。
3.使用同一个网络,同时在多个尺度处理输入的特征和响应。既能确保精度,又考虑了各个部件之间的远距离关系。

算法的流程如下:
- 在每一个尺度下,计算各个部件的响应图
- 对于每个部件,累加所有尺度的响应图,得到总响应图
- 在每个部件的总响应图上,找出相应最大的点,为该部件位置
重点在第一步。以下依次讲解:如何设计网络来计算响应图,以及如何训练网络。
网络结构
网络输入彩色图像(绿色ori image)。以半身模型为例,分为四个阶段(stage)。每个阶段都能

本文详细介绍了Convolutional Pose Machines的工作原理和网络结构,包括多阶段监督、响应图计算等关键点。通过深度学习和卷积层,该模型在人体姿态分析中表现出色,尤其在2016年MPII竞赛中取得领先。文章还探讨了训练过程中的数据扩展、标定方法以及中继监督优化策略,以解决深层网络的优化问题。
最低0.47元/天 解锁文章
2404

被折叠的 条评论
为什么被折叠?



