Associative Embedding : End-to-End Learning for Joint Detection and Grouping
2016
reading time : 2019/09/26
paper address : https://arxiv.org/pdf/1611.05424.pdf
论文介绍的associative embedding,是一个对于检测和分组任务的监督卷积神经网络的一个新方法。
其基本思想是为每次检测引入一个实数作为“tag”来标识检测所属的组。换句话说,标记将每个检测与同一组中的其他检测关联起来。
网络输出每个像素检测分值的热图(heatmap)和一个逐像素身份标签的heatmap。
值得注意的是,我们没有“ground truth”tags 供网络测试,因为重要的不是特定的标签值,而是他们之间的差异。
在这个任务中,我们将associative embedding 和stacked hourglass network集成在一起,它为每个关节生成一个检测热图和标记热图,然后将带有类似tags的身体关节分组到每个人中。
associative embedding的思想是在检测分数(detection score)的基础上预测每个候选项的嵌入。
值得注意的是,标签的绝对值并不重要,重要的是标签之间的距离。
loss
a dection loss + a grouping loss。
detection loss是计算预测heatmap和“ground truth”之间的 mean square error。
grouping loss 是评估预测tags与 ground truth分组的一致性。
论文不是在所有可能的一对关键点上执行loss,而是对每一个人,提出了一个参考嵌入(reference embedding)。在每一个人中,我们计算每一个点的参考嵌入(reference embedding)和预测嵌入(predicted embedding)之间的平方距离。在不同人之间,我们我们比较他们之间的参考嵌入,使用一个penalty,这个值会随着之间的距离增加,会以指数级下降到零。
令作为第k个关节点的tagging heatmap。是x像素位置的标签值。给定的N个人,令ground truth的身体关节点的位置是,是第n个人的第k个身体关节的位置。假设所有的K个关节都有注释,那么第n个人参考嵌入是:
grouping loss Lg定义为 :