文章地址:arxiv
这篇文章是电子科技大学和visionsemantics实验室联合发布的一篇文章.
文章目的:
人体姿态估计经过近几年的发展,在精度方面已经做的挺不错了,但越高的精度就意味着越深越宽的网络. 这样就造成了一个问题, 现有的state-of-the-art的模型没有办法在轻量级的设备上跑,例如普通的手机,没有很好的GPU的电脑等等. 文章的目的就是为了能够得到一个很轻量级的模型,在几乎不损失精度的情况下,能够运行在轻量级的设备上.
方法:
文章提出的方法也很容易理解. 首先是构造一个小模型,怎么构造? 直接把现有的Hourglass模型缩小一倍就好了. 具体而言,原生的hourglass模型有8个stage, 并且conv层通道数都是256, 那么小模型就是只有4个stage, conv层通道数为128的tiny-hourglass模型,文章叫做FPD(Fast Pose Distillation).
模型有了,怎么让它学习出来pose?文章提出使用一个teacher model来指导小网络学习. 大概意思是, 本来网络只需要将输出和label做一个L2 loss, 现在不仅需要和label做loss计算,和需要和teacher model的输出做L2 loss计算. 两者的和才是网络真正的loss. 并且设定了一个超惨 α \alpha