文章地址链接:arxiv
百度研究院和香港科技大学联合出品的一篇单人pose检测文章.主要创新点有两个:
- 提出了Cascade Prediction Fusion网络用来预测关键点
- 提出了Pose Graph Neural Network, 用来对1预测的关键点进行修正
第二个创新点用到了GRU及一些图的知识, 不是很了解,重点讲下第一个创新点.
现有的pose estimation网络,自从hourglass及cpm提出之后,主流的思想都变成了设计一个特征提取更好的backbone网络 + multi-stage 的pose estimation网络. 例如hourglass, 是将一个一个的hourglass module串联起来, 上一个hourglass module的输出包括两个, 一个是单纯的featuremap输出, 另外一个生成的对应的heatmap输出. 这两个输出concate一起之后, 作为下一个hourglass module的输入. 更有名的比如openpose, 也是多个stage的串联, 上一个stage的输出, 包括featuremap和heatmap都会concate一起后作为下一个stage的输入. 目前多个stage的网络设计,虽然内部实现不一样, 但基本都是做类似处理, 把上一个stage的输出集中在一起作为下一个stage的输入. 本文的做法不大一样,首先看CPF网络的整体流程图:
从上图可以看出, CPF网络仍然是multi-stage的形式, 但对pred heatmap做了不一样的处理. stage t 得