Center-based 3D Object Detection and Tracking 论文阅读笔记

Abstract

        三维对象检测通常用长方体来进行表示,3D世界中的对象不遵循任何特定的方向,基于长方体的检测器难以枚举所有方向或将轴对齐的边界框适合旋转的对象。所以提出模型CenterPoint。第一个阶段是使用关键点进行检测 和 回归;第二阶段是修正 ;在CenterPoint中,3D对象跟踪简化为贪婪的最近点匹配。模型取得好的效果。

Introduce


        现在面临的挑战有3个:1)点云稀疏性,造成许多3D物体没有测量值;2)生成的三维检测框通常都不能与全局坐标系进行对齐;3)3D物体各有个的形状、大小等等。用2D框表示3D物体是不太好的,可以针对不同的对象使用不同的anchor,但是这将会造成计算负担和存在“假阳性”的检测。
        在本篇文章中,我们提出了CenterPoint,用于两阶段3D物体检测,是通过使用关键点检测找物体的中心点和属性。CenterPoint使用一个标准的基于Lidar的主干网络来建造一个输入点云的表示,然后用头顶视角进行映射并且使用标准的基于图像的关键点检测来寻找物体中心。对于每一个物体中心,都包含了物体的所有属性。下一步,第二阶段我们用来修正提纯物体的位置,并且用物体的中心点特征来评估3D bounding box。它带来的好处是可以恢复由于步长和感受野限制导致失去的局部几何信息。

        使用基于中心点系列center-based有几个好处:

        1)与边界框不同,点没有内部方向。这大大减少了目标检测器的搜索空间,并允许主干学习目标的旋转不变性和等价性;

        2)简化了下游任务;

        3)基于点的特征提取使我们能够设计两阶段修正模块,其速度比以前的方法快得多;

        我们的模型在Waymo Open 和 nuScenes上都取得了特别好的效果。

Related work

        2D物体检测:RCNN系列使用不知分类的候选框;YOLO、SSD、RetinaNet使用具体分类的候选框;Center-based没有使用候选框。

        3D物体检测:Vote3Deep使用以特征为中心的投票选举;VoxelNet使用pointnet提取特征,使用2D+3D检测;SECOND改进VoxelNet;PIXOR使用2D特征映射;PointPillars使用柱体表示;MVF和Pillar-od组合多视图,来学习柱体表示。

        VoteNet使用vote clustering;我们没有使用vote而是直接回归;另一种是使用多点表示在物体中心区域,并且回归属性。我们对每个点使用单一的位置,并且使用关键点来评估损失。

        两阶段3D物体检测:对于大多数voxel-based和point-based都是用RoIPool或者RoIAlign,这些方法太耗时。我们从中间特征图中提取5个表面中心点的稀疏特征。

        3D物体追踪:CenterTrack,我们使用速度估计和基于点的检测相结合的方法来跟踪多帧中的目标中心的方法。

Preliminaries(准备工作):

2D Centernet:将对象检测重新表述为关键点估计。它获取一个输入图像并预测K个类别中的每一个的w×h热图ˆY∈[0,1]w×h×K。输出热图中的每个局部最大值,对应于检测到的对象的中心。为了获得2D长方体,CenterNet回归到在所有类别之间共享的大小贴图。对于每个检测对象,大小贴图将其宽度和高度存储在中心位置。CenterNet架构使用标准的完全卷积图像主干,并在顶部添加密集预测头。在训练期间,Centernet学习在每个类别Ci∈{1.。。。K},并回归到带注释的边界框中心的对象大小S。为了弥补主干架构的跨度带来的量化误差,中心网还回归到局部偏移量ˆO。

        在测试时,检测器生成K个热图和密集的类别不可知回归图。热图中的每个局部最大值(峰值)对应于一个对象,其置信度与峰处的热图值成正比。对于每个检测到的对象,检测器从相应峰值位置的回归图中检索所有回归值。根据应用程序域的不同,可能需要非最大值抑制(NMS)。

         如图所示。centernet中第一层heatmap就是形成C个别的热图,就是用来分类,判断类别的;第二层H*W*2用来对检测框x、y大小进行调整;第三城offset用来修正中心点的x、y坐标。

        3D检测:检测框组成b = (u, v, d, w, l, h, α) ,其中(u, v, d)代表中心坐标,(w, l, h)代表3D框的大小,α代表方向,旋转角度。

        现在3D物体检测使用3D encoder将点云量子化到网格中,进行特征提取,再进行特征聚集。backbone输出是映射图的特征。常用的backbone有VoxelNet、PointPillars等

        之后的检测头,可分为一阶段、二阶段检测框检测,用一些预先准备好的先验框进行检测。3D检测依赖2D盒子IoU,所以造成很多负担,我们介绍一种依赖于已经存在的3D主干网络的基于中心点的检测头。

CenterPoint

        整体结构如图。 

        第一阶段预测一个具体分类的heatmap、物体大小、一个子体素位置的修正、方向以及速度。

        Center heatmap heap:center-head的目标是为了得到一个heatmap的峰值(所有检测物体中心位置)。训练期间,使用2D Gaussian在生成检测框,使用焦距损失。随着维度加深,物体可能会出现扭曲失真,大部分位置都会被考虑成背景,为了解决这个问题,作者通过扩大每一个真实物体中心高斯峰值来增加对目标heatmap的正向监督。具体做法:设置高斯半径为σ = max(f(wl), τ),这里τ = 2是最小的高斯半径,f是CornerNet中定义的半径函数。CornerNet中f是min(r1,r2,r3),有三种情况。

        Regression heads:在中心点存储物体的属性:一个子体素位置的修正可以减少误差、一个高度值帮助定位、大小、方向(角度)

        Velocity head and tracking:我们预测两个维度速度评估。我们将前一帧的点转换并合并到当前参考帧中(使用贪恋的方法),并预测当前帧与过去帧之间物体位置的差异。我们通过应用负速度估计将当前帧中的对象中心投影回前一帧,然后通过最近距离匹配将它们与跟踪的对象进行匹配。在Sort之后,我们将不匹配的轨迹保留到T=3帧在删除它们之前。我们用最近一次已知的速度更新每个不匹配的轨迹。

        虽然我们的效果还不错,但是仍然不能准确定位,所以提出第二阶段。

Two-Stage CenterPoint

        在第二阶段中我们只需要关注四个面而不需要提取上下两个面的特征。具体就是将backbone的输出经过双线性插值,随后进行concatenate,之后经过MLP得到两个分支,分别为class-agnostic confidence score 和 box refinement 。

对于score分支:

 最终的置信度分数:

 分别为第一阶段和第二阶段的置信度。

结构

        所有第一级输出共享第一个3×3卷积层、BN和RELU。然后,每个输出使用batch norm和RELU的两个3×3卷积的自己的分支。我们的第二阶段使用共享的两层MLP,具有BN、RELU和Dropout,丢失率为0.3,然后是单独的三层结构的MLP用于置信度预测和盒回归。

实验

        实验结果

 

 消融实验

         可以看到确实基于中心点的预测要比先验框、网格系列要好些;

 表7和表8总结了结果。当盒子旋转或偏离平均盒子大小时,我们基于中心的检测器比基于先验框表现得更好,展示了该模型在检测对象时捕捉旋转和大小不变的能力。这些结果令人信服地突出了使用3D对象的基于点的表示的优势。

3D追踪:我们的基于速度的最近点距离匹配比基于卡尔曼滤波的马氏距离匹配效果更好,有两个原因:1)我们用学习的点速度来模拟物体的运动,而不是用卡尔曼滤波来建立3D包围盒的动力学模型;2)我们用中心点距离而不是盒状态的马氏距离或3D包围盒IOU来匹配物体。

 

 

        


Conclusion


         提出了模型使用标准的3D点云的在头部带着几个卷积层的encoder来生成BEV图和其他密集的回归输出;目标检测是一个简单的局部峰值的提取和细化,追踪是一个最近距离匹配。CenterPoint简单,几乎实时,在Waymo和nuScenes上都取得不错的效果。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值