centerNet_centernet功能-CSDN博客

本文链接：https://blog.csdn.net/lihaojie684shu/article/details/129393131

采用不同的方法，构建模型时将目标作为一个点——即目标BBox的中心点。我们的检测器采用关键点估计来找到中心点，并回归到其他目标属性，例如尺寸，3D位置，方向，甚至姿态。我们基于中心点的方法，称为：CenterNet，相比较于基于BBox的检测器，我们的模型是端到端可微的，更简单，更快，更精确。

目标检测驱动了很多基于视觉的任务，如实例分割，姿态估计，跟踪，动作识别。且应用在下游业务中，如监控，自动驾驶，视觉问答。当前检测器都以bbox轴对称框的形式紧紧贴合着目标。对于每个目标框，分类器来确定每个框中是否是特定类别目标还是背景。
One stage detectors 在图像上滑动复杂排列的可能bbox（即锚点）,然后直接对框进行分类，而不会指定框中内容。
Two-stage detectors 对每个潜在框重新计算图像特征，然后将那些特征进行分类。
后处理，即 NMS（非极大值抑制），通过计算Bbox间的IOU来删除同个目标的重复检测框。这种后处理很难区分和训练，因此现有大多检测器都不是端到端可训练的。
本文通过目标中心点来呈现目标（见图2），然后在中心点位置回归出目标的一些属性，例如：size, dimension, 3D extent, orientation, pose。而目标检测问题变成了一个标准的关键点估计问题。我们仅仅将图像传入全卷积网络，得到一个热力图，热力图峰值点即中心点，每个特征图的峰值点位置预测了目标的宽高信息。
模型训练采用标准的监督学习，推理仅仅是单个前向传播网络，不存在NMS这类后处理。