【论文阅读笔记】Associative Embedding：End-to-End Learning for Joint Detection and Grouping

最新推荐文章于 2022-06-16 10:59:53 发布

时光机ﾟ

最新推荐文章于 2022-06-16 10:59:53 发布

阅读量496

点赞数 1

分类专栏： # 姿态检测论文读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19784349/article/details/113566622

版权

论文读书笔记同时被 2 个专栏收录

79 篇文章 4 订阅

订阅专栏

27 篇文章 6 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1611.05424

论文总结

这是16年的老论文了，该方法可以产生pixel-wise的预测，得到检测结果和grouping，所以理论上可以适用于任何pixel-wise的任务，比如多人姿态检测、实力分割等。
在姿态检测任务上，除了传统的heatmap预测，还有一个grouping分支，用来预测一组数字，数字接近的为同一个目标。数字的本身并不重要，重要的是用来相互区分的意义。

论文介绍

模型预测两个分支，一个是pixel detection scores，也就是传统的heatmap；另一个是pixel identity tags，用来grouping同一个对象，其在每个像素上预测一个实数tag。
tag是没有ground-truth值的，网络自由地决定tags之间是否相近或相异。tags值不重要，相异性才重要。只需要使用损失函数，用来将一组的tag接近就行。

使用的backbone是hourglass。网络结构如下图所示：其中蓝色的圈是中间监督，绿色的圈是最后的预测输出，中间监督和最后的预测，都使用相同的ground truth。

不但tag的值不重要，而且embedding分支的维度也不重要。只要容量足够，也可以从高维的embedding中映射到低维中。而高维的embedding在理论上能group 那些分离的检测结果。

在hourglass上，做了一点改进：下采样的时候，增加了channel 单独的层，用 $3 * 3$ 的卷积层，而不是Residual 模块。

detection loss是 $L_2$ 损失函数。不是对所有的tag paid都进行loss估计，只对同一个人的pair进行损失估计，通过取人的关节输出的embedding的平均值来完成的。相当于(1)人有一个平均值表示，计算关节和人的平方；(2)不同人之间平均值之间的距离。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读笔记】Associative Embedding：End-to-End Learning for Joint Detection and Grouping

论文地址：https://arxiv.org/abs/1611.05424论文总结这是16年的老论文了，该方法可以产生pixel-wise的预测，得到检测结果和grouping，所以理论上可以适用于任何pixel-wise的任务，比如多人姿态检测、实力分割等。在姿态检测任务上，除了传统的heatmap预测，还有一个grouping分支，用来预测一组数字，数字接近的为同一个目标。数字的本身并不重要，重要的是用来相互区分的意义。论文介绍模型预测两个分支，一个是pixel detection
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。