论文笔记：Object as Points

最新推荐文章于 2023-07-05 16:54:00 发布

Richard_Che

最新推荐文章于 2023-07-05 16:54:00 发布

阅读量342

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/richard_che/article/details/106152798

版权

15 篇文章 0 订阅

订阅专栏

论文：https://arxiv.org/pdf/1904.07850.pdf
代码：
https://github.com/xingyizhou/CenterNet

需要Anchor。这里作者将Anchor概括为：一系列可能的BBox，用于在输出Feature map之间滑动，并且基于这些滑动的BBox进行offset的回归&BBox的分类
Two-stage则被概括为先通过Anchor取bbox然后做分类
无论是One还是Two stage都需要NMS对BBox进行后处理，根据IOU去掉重复的框
基于Anchor的检测方法都有一个问题：对于输出的每个点都需要枚举所有Anchor，计算对应的偏移量以及分类结果，从而花费更多的计算

将物体表征为一个点，这个点的坐标就是物体矩形框的中心
然后这个点可以附上一些额外的信息，比如深度，宽高，朝向等等。那么物体检测就可以转换为特征点检测了
实际操作的时候就是输入图像->全卷积网络->热力图，热力图局部响应最大的坐标，就是检测到的物体坐标，再回归一张特征图，表征其相关属性，如偏移，宽高等，就能够实现物体的检测
这种方法还能避免NMS这种检测的后处理
关于Anchor的解释:
1. 作者认为这种方法本质上也是一种anchor based，Anchor就是每个输出feature map的坐标，只是没有在anchor中用了宽高信息（因此输出量没有先验值）。正因为没有宽高信息，Anchor对应正负样本的方式无需根据IOU+人工阈值去判断。
2. 其次，如Figure 3所示，每个点只有一个Anchor（feature map坐标），因此只有1个正样本，所以不需要额外地做NMS，直接取局部的极值
3. 与Anchor Based的方法（输出Feature Map中一个点对应多个Anchor的方法）相比，输出feature map更大（1/4输出，而一般anchor based都只是 1/16），能缓解Anchor减少带来的损失

对于任一GT BBox，先找到它在输出Feature Map（Heat Map）中的坐标 $\widetilde{p}$ （除以output stride $R$ ，然后取整） $\widetilde{p}=\lfloor p/R \rfloor$ ，从而得到GT BBox的中心与Heat Map坐标关系
Heat Map并不是仅仅将 $\widetilde{p}$ 上的值置为1，而是以 $\widetilde{p}$ 为中心（均值）建立高斯分布，值得注意的是方差 $\sigma^{2}_{p}$ 是根据框的大小自适应的：
$Y_{xyc} = exp(-(\frac{(x-\widetilde{p}_{x})^{2} + (y-\widetilde{p}_{y})^{2}}{2\sigma^{2}_{p}}))$
当存在多个BBox，导致一个点下会有多个响应时，我们选择最大的响应作为 $Y_{xyc}$ 的值
$Y_{xyc}$ 通过带有focal loss的逻辑回归来进行监督：
对于每个类别都有相应的Heat Map，因此这里会产生 $(H / R, W / R, C)$ 大小的Label,C为要检测的类别数目

显然 $\widetilde{p}=\lfloor p/R \rfloor$ 这个过程是会带来检测框的精度损失的。为了补偿，需要回归额外的偏移量 $O_{\widetilde{p}} = p/R - \widetilde{p}$
$O_{\widetilde{p}}$ 通过L1 loss进行监督
最终预测BBox的坐标 = HeatMap局部极值坐标 + offset
Offset有2个纬度（x,y），channel = 2 ,因此这里产生了一个 $(H / R, W / R, 2)$ 大小的Label

这里没有对宽高进行一定的缩放，回归的目标 $s_k = (x_2^k - x_1^k, y_2^k - y_1^k)$ ，同样这里channel = 2, 因此产生了一个 $(H / R, W / R, 2)$ 大小的Label
使用L1 loss宽高进行回归
最终Heat Map坐标，偏移量，宽高，共同表征了一个目标框

多个loss最终用线性组合合并起来：
在这里插入图片描述

从最终输出的C个channel的Heat Map中，对每个channel取出局部极值点
局部极值点就是对每一张heat map用3x3的最大值滤波，找到3X3中的极值点
对于每个类别，保留响应最大的100个极值点
极值点对应的响应值就是目标的置信度。本文这种方式取代了NMS
最终将对应的回归值(offset, 宽高)通过一下的方式解码，解出最终的检测框 ${\hat{x},\hat{y}}$ 应该是HeatMap坐标乘以output stride：

除了宽高以外，回归量还可以包含更多的东西，如3D Size(长宽高，深度，角点，人体关键点，朝向等，具体的编码方式如下图)
在这里插入图片描述

关注

专栏目录