Roarnet：A Robust 3D Object Detection based on RegiOn Approximation Refinement

最新推荐文章于 2023-11-20 09:59:56 发布

黑龙江小伙er

最新推荐文章于 2023-11-20 09:59:56 发布

阅读量1.9k

点赞数 1

分类专栏： RGBD 三维物体检测 Deep learning lidar 文章标签：三维物体检测 3D Object Detection 深度学习 RGB-D 自动驾驶

Deep learning 同时被 3 个专栏收录

4 篇文章 2 订阅

订阅专栏

3 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

一种基于区域近似细化鲁棒的三维目标检测

文章网址：https://arxiv.org/pdf/1811.03818.pdf

摘要：

基础网络为Faster RCNN和PointNet。网络分为两个阶段。阶段一：用RoarNet_2D估计物体的三维姿态；阶段二：对候选区域进行深度推断，以递归的方式得出最终的姿态。此网络用tensorflow实现，使用公开的预训练模型。

简介：

三维物体检测帮助理解物体在三维空间中的几何结构，这对预测物体将来的运动十分重要。二维目标的检测和实例分割已经表现的很卓越了，但在三维物体检测方面的文章却较少。这篇文章就是研究三维物体检测，从2D图像和3D点云预测3D的边界框。

3D Points to BEV/FV+CNN 的缺点：依赖于传感器融合来补偿3D点云投影到2D图像上数据的损失。传感器融合有需要高质量的机与激光雷达的同步，但这很难做到，因为两个传感器的工作频率不同。

Diss对象：F-PointNet（对传感器间同步质量很敏感）

RoarNet：RegiOn Approximation Refinement Network 帮助改进三维目标检测算法的性能和减少传感器同步所带来的问题。

灵感来自于（3D Bounding Box Estimation Using Deep Learning and Geometry，cvpr2017），RoarNet_2D从2D图像上估计目标的三维姿态，并获得可能的候选定位，来作为RoarNet_3D的输入。这种组合明显的减少了可能的3D 候选区域，要不然就需要在巨大的空间内搜索目标。获得3D候选区域的同时RoarNet_3D（一个两段式的检测网络）逐渐细化搜索区域，让训练过程变得高效。RoarNet_3D类似于Faster RCNN，做了一些小改动，让训练变得简单。

与F-PointNet的关键区别：RoarNet不用2D 边界框筛选点云。相反，RoarNet提取位于候选区域直立圆柱体内的全部点云，这样会使他们的模型对传感器同步更具有鲁棒性。

网络设计：

检测流程：

这个模型首先从2D图像中预测目标的2D边界框和3D姿态。对于每个2D检测目标，使用几何一致搜索来预测目标在三维空间中的位置。找到每个预测定位的中心，以此中心设置直立圆柱形体为推荐区域。计算边界框和姿态的预测误差，这里一个目标可能有多个候选区域。
每个候选区域只负责检测单个目标。将从每个候选区域内采样的点云作为输入，这个模型预测与候选区域中心相关的目标定位，递归地预测下一步的候选区域的位置。他们的模型还预测反映候选区域内目标概率的似物性评分。只有具有较高评分的候选区域才会进入下一步。
最后，这个模型在之前的预测位置放置新的候选区域。他们的模型预测3D边界框所需要的所有坐标，包括：位置、旋转、目标尺寸。实际当中，他们重复这一步，比一遍的检测效果更好。

RoarNet_2D

几何一致搜索：

假设物体的位姿可以有7个自由度表示（X,Y,Z,W,H,L, Θ），那么，2D边界框和3D位姿的投影（3D box X,Y,Z,W,H,L, Θ与相机投影矩阵P）应该一致。文献6展示了：（1）网络可以回归每个目标的W,H,L, Θ；（2）有有限个3D box位于2D框内的可能组合；（3）在每个排布中，使用过约束线性方程组可以从已知的W,H,L, Θ求出X,Y,Z来。之后，最优的排布方式通过最小化投影误差来选择。

让为2D边界框。在每个排布下,计算3D边界框的公式如下：

B 是过约束线性方程组；最优的排布可以通过检查与c的投影获得。

空间分散

RoarNet_2D作为3D候选区域提出器，要提供有更高召回率的候选区域。因为单镜头的姿态估计的准确率有限，所以需要分散估计结果来提高可能的位姿候选数量。对于每个目标（），首先我们通过两个极端的情况来生成一个分散范围，这两个计算的情况是单纯的尺寸缩小（1-s）倍和放大（1+s）倍。

这两种极端情况都符合。

已知两种极端情况的中心p1和p2，将p1和p2的连线以步长m分开，最终，RoarNet_2D为RoarNet_3D产生个3D点.

RoarNet_3D

网络结构：RoarNet_3D被设计使用点云来预测最佳适合物体的3D边界框。RoarNet_3D两段式网络，灵感来自于PointNet。PointNet在网络总加入MaxPooling层来从非结构化的点云中提取全局特征。RoarNet_3D简化版如图所示：

RoarNet_3D由两个网络构成：RPN（region proposal network）和BRN（box regression network）。每个网络的输出：

训练与预测：

多任务loss：

、和是位置、角度和尺寸回归loss，用huber loss计算。、和是分类loss，用交叉熵loss。代表候选区域的似物性为真，被用于提升预测一般物体的表现。

黑龙江小伙er

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Roarnet：A Robust 3D Object Detection based on RegiOn Approximation Refinement

一种基于区域近似细化鲁棒的三维目标检测文章网址：https://arxiv.org/pdf/1811.03818.pdf摘要：基础网络为Faster RCNN和PointNet。网络分为两个阶段。阶段一：用RoarNet_2D估计物体的三维姿态；阶段二：对候选区域进行深度推断，以递归的方式得出最终的姿态。此网络用tensorflow实现，使用公开的预训练模型。简介：三维物体检...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。