AVOD论文解读

论文地址:[1712.02294] Joint 3D Proposal Generation and Object Detection from View Aggregation (arxiv.org)

代码地址:https://link.zhihu.com/?target=https%3A//github.com/kujason/avod

1.概述

​AVOD是一种融合激光雷达与相机数据的3D物体检测算法,它将激光雷达的数据转换成鸟瞰图的形式同RGB图像数据一起传入到网络中来进行自动驾驶场景下的高精度物体检测。

在这里插入图片描述

2.网络框架

​该网络先对输入数据经过特征提取、降维操作以及裁剪之后进行初步的融合,获取场景中包含前景的区域(进行初步的回归),然后将场景中的候选区域投影到鸟瞰图与RGB图后获得待裁剪区域进行裁剪与调整到统一的大小再经过融合获取场景中不同物体的检测类别及其3D物体检测框。

2.1 激光点云数据预处理

AVOD对于激光点云处理相对于MV3D进行了一些简化。去除了强度图,对于点云的高度图划分成M层,即z在(0,2.5)的范围内,以0.5为间隔取得5层,每层中的每个网格取高度最大的点云。

​对于密度图的处理是 :
m i n ( 1.0 , l o g ( N + 1 ) l o g ( 64 ) ) min(1.0, \frac{log(N+1)}{log(64)}) min(1.0,log(64)log(N+1))

2.2 特征提取

​网络前端的Feature Extractor对输入数据进行了提取后获得特征图,对比MV3D中的特征提取器(改进的VGG-16),AVOD的特征提取器使用了FPN进行激光点云与RGB图像的特征提取,具有多尺度检测的能力(包含底层与高层的信息),在小物体检测方面相比于MV3D具有一定优势。
在这里插入图片描述

2.3 降低数据量

​在经过各自的特征提取后,由通过了1*1的卷积操作降低了通道数。引用原论文中的话:

In some scenarios, the region proposal network isrequired to save feature crops for 100K anchors in GPUmemory. Attempting to extract feature crops directly from
high dimensional feature maps imposes a large memory overhead per input view. As an example, extracting 7 × 7 feature crops for 100K anchors from a 256-dimensional
feature map requires around 5 gigabytes1 of memory assuming 32-bit floating point representation. Furthermore, processing such high-dimensional feature crops with the RPN greatly increases its computational requirements.

​这在一定程度上减少了内存开销。

2.4 3D后选区域生成

​在送入3D的候选区域生成网络前,由于不同的数据生成的特征图大小不同,网络中采用了Crop and Resize操作,也就是将融合得到的3D检测框分别投影到对激光点云鸟瞰图的特征图和RBG图像中获得带裁剪区域进行裁剪和统一大小的缩放(7*7),参考自[1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors (arxiv.org)。MV3D使用的则是ROI Pooling,这两种不同的操作都能达到特征图大小统一的作用,但对最终的物体检测哪个效果好,如果有大佬知道还请指出。

​进行第一阶段的融合,大致的作用应该是类似于Faster RCNN吧,区分哪些是前景哪些是背景,获取它们的检测框位置,然后使用NMS过滤掉一些框,将剩下的候选区域投影到激光点云鸟瞰图与RGB图像中,进行第二阶段的融合,过程与第一次类似。
在这里插入图片描述

2.5 3D检测框编码

在这里插入图片描述
​在MV3D中使用的是8角点的编码方式,论文中说明了8角点相对于轴对齐的编码方式的优势在于可以计算对象的方向,而AVOD中指出8角点的方式不仅冗余而且没有对长方体检测框进行约束,因此提出了使用底面的四个角点的x和y的坐标以及长方体底面距离地面的距离和顶面距离地面的距离,相比于8角点的编码方式减少了参数量,但是在实验中结果中并没有进行对比来显示这种编码方式确实有优势。

2.6 朝向估计

在这里插入图片描述
​在MV3D中对于物体朝向的估计是根据物体的长边来大致确定物体的朝向,但是这种方法无法区分相差±180°的情况,同时对于行人的检测这种方法也不太可行。

​因此,针对这种问题AVOD中使用了一种方法,在朝向估计中引入了(cosθ, sinθ),θ限制在(-Π, Π)。这样在朝向相差180°是就会不会出现分歧,都有各自特定的数值。

​如果上述的解读有不足的地方,请大佬指出,感谢。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值