【论文阅读笔记】Associative Embedding:End-to-End Learning for Joint Detection and Grouping

论文地址:https://arxiv.org/abs/1611.05424

论文总结

  这是16年的老论文了,该方法可以产生pixel-wise的预测,得到检测结果和grouping,所以理论上可以适用于任何pixel-wise的任务,比如多人姿态检测、实力分割等。
  在姿态检测任务上,除了传统的heatmap预测,还有一个grouping分支,用来预测一组数字,数字接近的为同一个目标。数字的本身并不重要,重要的是用来相互区分的意义。

论文介绍

  模型预测两个分支,一个是pixel detection scores,也就是传统的heatmap;另一个是pixel identity tags,用来grouping同一个对象,其在每个像素上预测一个实数tag。
  tag是没有ground-truth值的,网络自由地决定tags之间是否相近或相异。tags值不重要,相异性才重要。只需要使用损失函数,用来将一组的tag接近就行。

  使用的backbone是hourglass。网络结构如下图所示:其中蓝色的圈是中间监督,绿色的圈是最后的预测输出,中间监督和最后的预测,都使用相同的ground truth。

  不但tag的值不重要,而且embedding分支的维度也不重要。只要容量足够,也可以从高维的embedding中映射到低维中。而高维的embedding在理论上能group 那些分离的检测结果。

  在hourglass上,做了一点改进:下采样的时候,增加了channel 单独的层,用 3 ∗ 3 3*3 33的卷积层,而不是Residual 模块。

  detection loss是 L 2 L_2 L2损失函数。不是对所有的tag paid都进行loss估计,只对同一个人的pair进行损失估计,通过取人的关节输出的embedding的平均值来完成的。相当于(1)人有一个平均值表示,计算关节和人的平方;(2)不同人之间平均值之间的距离。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值