CenterNet 是一种anchor-free的对象检测体系结构。这种结构有一个重要的优势,因为它在后处理时用更优雅的算法取代了经典的NMS(非最大抑制),这对CNN流程来说是很自然的。这种机制可以更快地进行推理。参见图1。
正如我在关于对象检测的文章中所描述的那样, 大多数探测器使用多个(通常是3或5个)基本框或锚点来编码他们的预测。输出要素图中的每个空间像元预测多个框。每个框预测都编码为相对于像元中心的 x 和 y 偏移,以及相对于相应锚点的宽度和高度偏移。完整的解释可以在YOLOv3帖子中找到。
基于锚点的检测的问题在于它会产生许多垃圾预测:例如,YOLOv3 为每个图像预测超过 7000 个框。然后,后处理块需要对重叠预测运行成对检查,如果重叠率很高(通常 IoU > 0.7,而 COCO 测试集),则假定预测引用同一对象,并丢弃置信度较低的预测。此方法有两个主要缺陷:
- 它的复杂性与预测数的平方成正比 - 对于基于高精度锚点的模型(使用高分辨率输入)尤其糟糕。
- 它迫使网络在NMS之前解码所有预测,对大多数不相关的预测执行更多的时间和功耗操作。
由Zhou等人于2019年发表的论文《Ob