CVPR19
之前的人体位姿工作一般都是想办法提升精度,但是模型复杂度较高,效率低。本文目的是构建一个轻量化的模型,有较小的计算成本,同时保持较高精度。
主要思路是将原始的hourglass做“瘦身”。
这样网络参数量锐减,肯定是没办法充分学习的,精度会降低。因此解决方法是先预训练一个strong teacher network,其实就是原始的hourgalss,然后用这个teacher network来引导student network学习。最后test时,teacher network就丢掉了。
这里训练loss由两部分组成,第一部分是pose distillation loss
s和t分别代表student和teacher。
第二部分是传统loss:
总的loss:
最后思考为什么这个teacher network是有效的呢?
1.关节点坐标标签人工标记,存在一定错误,teacher net学习的坐标基于概率推断,一定程度上可以缓解标签错误。
2. 在复杂背景和遮挡情形下,teacher heatmap由更大的不确定性(uncertainty),这样会降低学习难度。
3. 有时无标记关节点坐标会被teacher net标记。