Objects as Points
代码
将图像中的物体和人转换为一个有边界框的一个点
摘要
检测将对象标识为图像中的轴对齐框。大多数成功的目标检测器列举了一个几乎详尽的潜在目标位置列表,并对每个位置进行分类。这是浪费、低效的,需要额外的后处理。在本文中,我们采取了不同的方法。我们将对象建模为单个点-其边界框的中心点。我们的探测器使用眼点估计来寻找中心点,并回归到所有其他对象属性,如大小、三维位置、方向,甚至姿势。我们的基于中心点的方法centernet是端到端可微的,比相应的基于边界盒的检测器更简单、更快和更精确。centernet在ms-coco数据集上实现了最佳的速度精度权衡,142 fps的ap为28.1%,52 fps的ap为37.4%,1.4 fps的多尺度测试为45.1%。我们在coco关键点数据集上,使用相同的方法估计kitti基准中的3d边界框和人体姿势。我们的方法与复杂的多阶段方法竞争性地执行并且实时运行。
贡献
我们的方法是通用的,可以用很小的努力扩展到其他任务。通过预测每个中心点的附加输出,我们提供了三维目标检测和多人姿态估计的实验。对于三维包围盒估计,我们回归到对象绝对深度、三维包围盒尺寸和对象方向。对于人体姿态估计,我们将二维关节位置视为中心偏移,并在中心点位置直接回归到它们。