Roarnet:A Robust 3D Object Detection based on RegiOn Approximation Refinement

3 篇文章 1 订阅
3 篇文章 0 订阅

一种基于区域近似细化鲁棒的三维目标检测

文章网址:https://arxiv.org/pdf/1811.03818.pdf

摘要:

基础网络为Faster RCNN和PointNet。网络分为两个阶段。阶段一:用RoarNet_2D估计物体的三维姿态;阶段二: 对候选区域进行深度推断,以递归的方式得出最终的姿态。此网络用tensorflow实现,使用公开的预训练模型。

简介:

三维物体检测帮助理解物体在三维空间中的几何结构,这对预测物体将来的运动十分重要。二维目标的检测和实例分割已经表现的很卓越了,但在三维物体检测方面的文章却较少。这篇文章就是研究三维物体检测,从2D图像和3D点云预测3D的边界框。

3D Points to BEV/FV+CNN 的缺点:依赖于传感器融合来补偿3D点云投影到2D图像上数据的损失。传感器融合有需要高质量的机与激光雷达的同步,但这很难做到,因为两个传感器的工作频率不同。

Diss对象:F-PointNet(对传感器间同步质量很敏感)

RoarNet:RegiOn Approximation Refinement Network 帮助改进三维目标检测算法的性能和减少传感器同步所带来的问题。

灵感来自于(3D Bounding Box Estimation Using Deep Learning and Geometry,cvpr2017),RoarNet_2D从2D图像上估计目标的三维姿态,并获得可能的候选定位,来作为RoarNet_3D的输入。这种组合明显的减少了可能的3D 候选区域,要不然就需要在巨大的空间内搜索目标。获得3D候选区域的同时RoarNet_3D(一个两段式的检测网络)逐渐细化搜索区域,让训练过程变得高效。RoarNet_3D类似于Faster RCNN,做了一些小改动,让训练变得简单。

与F-PointNet的关键区别:RoarNet不用2D 边界框筛选点云。相反,RoarNet提取位于候选区域直立圆柱体内的全部点云,这样会使他们的模型对传感器同步更具有鲁棒性。

网络设计:

 

检测流程:

  1. 这个模型首先从2D图像中预测目标的2D边界框和3D姿态。对于每个2D检测目标,使用几何一致搜索来预测目标在三维空间中的位置。找到每个预测定位的中心,以此中心设置直立圆柱形体为推荐区域。计算边界框和姿态的预测误差,这里一个目标可能有多个候选区域。

  2. 每个候选区域只负责检测单个目标。将从每个候选区域内采样的点云作为输入,这个模型预测与候选区域中心相关的目标定位,递归地预测下一步的候选区域的位置。他们的模型还预测反映候选区域内目标概率的似物性评分。只有具有较高评分的候选区域才会进入下一步。

  3. 最后,这个模型在之前的预测位置放置新的候选区域。他们的模型预测3D边界框所需要的所有坐标,包括:位置、旋转、目标尺寸。实际当中,他们重复这一步,比一遍的检测效果更好。

RoarNet_2D

几何一致搜索:

假设物体的位姿可以有7个自由度表示(X,Y,Z,W,H,L, Θ),那么,2D边界框和3D位姿的投影(3D box X,Y,Z,W,H,L, Θ与相机投影矩阵P)应该一致。文献6展示了:(1)网络可以回归每个目标的W,H,L, Θ;(2)有有限个3D box位于2D框内的可能组合;(3)在每个排布中,使用过约束线性方程组可以从已知的W,H,L, Θ求出X,Y,Z来。之后,最优的排布方式通过最小化投影误差来选择。

为2D边界框。在每个排布下,计算3D边界框的公式如下:

B 是过约束线性方程组;最优的排布 可以通过检查c的投影获得。

空间分散

RoarNet_2D作为3D候选区域提出器,要提供有更高召回率的候选区域。因为单镜头的姿态估计的准确率有限,所以需要分散估计结果来提高可能的位姿候选数量。对于每个目标(),首先我们通过两个极端的情况来生成一个分散范围,这两个计算的情况是单纯的尺寸缩小(1-s)倍和放大(1+s)倍。

这两种极端情况都符合

已知两种极端情况的中心p1p2,将p1p2的连线以步长m分开,最终,RoarNet_2DRoarNet_3D产生个3D.

 

RoarNet_3D

网络结构:RoarNet_3D被设计使用点云来预测最佳适合物体的3D边界框。RoarNet_3D两段式网络,灵感来自于PointNet。PointNet在网络总加入MaxPooling层来从非结构化的点云中提取全局特征。RoarNet_3D简化版如图所示:

 RoarNet_3D由两个网络构成:RPN(region proposal network)和BRN(box regression network)。每个网络的输出:

训练与预测:

多任务loss

是位置、角度和尺寸回归loss,用huber loss计算。是分类loss,用交叉熵loss代表候选区域的似物性为真,被用于提升预测一般物体的表现。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值