BlazePose: On-device Real-time Body Pose tracking,2020
文章目录
Abstract
- 单人人体姿态估计,很多设计和选择,都是重点在于轻量且方便部署在移动端。
- 单人输出 33 个人体关键点,适合移动端实时估计,可以在手语识别、健身跟踪等场景使用。
- 同时使用 heatmap 和 regression 实现关键点定位,但训练时只用 heatmap 不用 regression,而预测时会砍掉 heatmap 只用 regression。
- 能够和 BlazeFace 和 BlazePalm 整合使用。
- 整体来讲,本文工程特性更明显,很多细节和理论并没有说太详细。
Introduction
很多场景中都需要人体姿态估计,这一任务的难点在于灵活性太高。目前很多方法都是为关键点生成对应的 heatmap 然后再进行坐标微调。heatmap 的方法可以很容易适应多人场景,但是如果将 heatmap 的方法用于单人姿态估计,很难部署在移动端实时检测和估计。本文则针对部署在移动端这一需求,在不明显降低准确度的情况下,加速模型。
相比 heatmap 方法而言,regression 方法需要的计算较少且适应性更广,但是它预测关键点的平均坐标,难以处理一些潜在的模糊性。Hourglass 的工作使用很少的参数预测关键点,并且有显著的性能提升。我们在 Hourglass 工作基础上进行了扩展,使用一个 encoder-decoder 网络为所有的关键点预测 heatmap,然后追加一个 encoder 直接对所有的关键点进行坐标回归。而关键在于,在本文的方法中,heatmap 分支在 inference 时可以直接砍掉,所以更加轻量适合部署在移动端。