论文地址:https://arxiv.org/abs/1611.05424
论文总结
这是16年的老论文了,该方法可以产生pixel-wise的预测,得到检测结果和grouping,所以理论上可以适用于任何pixel-wise的任务,比如多人姿态检测、实力分割等。
在姿态检测任务上,除了传统的heatmap预测,还有一个grouping分支,用来预测一组数字,数字接近的为同一个目标。数字的本身并不重要,重要的是用来相互区分的意义。
论文介绍
模型预测两个分支,一个是pixel detection scores,也就是传统的heatmap;另一个是pixel identity tags,用来grouping同一个对象,其在每个像素上预测一个实数tag。
tag是没有ground-truth值的,网络自由地决定tags之间是否相近或相异。tags值不重要,相异性才重要。只需要使用损失函数,用来将一组的tag接近就行。
使用的backbone是hourglass。网络结构如下图所示:其中蓝色的圈是中间监督,绿色的圈是最后的预测输出,中间监督和最后的预测,都使用相同的ground truth。
不但tag的值不重要,而且embedding分支的维度也不重要。只要容量足够,也可以从高维的embedding中映射到低维中。而高维的embedding在理论上能group 那些分离的检测结果。
在hourglass上,做了一点改进:下采样的时候,增加了channel 单独的层,用 3 ∗ 3 3*3 3∗3的卷积层,而不是Residual 模块。
detection loss是 L 2 L_2 L2损失函数。不是对所有的tag paid都进行loss估计,只对同一个人的pair进行损失估计,通过取人的关节输出的embedding的平均值来完成的。相当于(1)人有一个平均值表示,计算关节和人的平方;(2)不同人之间平均值之间的距离。