AVOD论文解读

论文地址:[1712.02294] Joint 3D Proposal Generation and Object Detection from View Aggregation (arxiv.org)

代码地址:https://link.zhihu.com/?target=https%3A//github.com/kujason/avod

1.概述

​AVOD是一种融合激光雷达与相机数据的3D物体检测算法,它将激光雷达的数据转换成鸟瞰图的形式同RGB图像数据一起传入到网络中来进行自动驾驶场景下的高精度物体检测。

在这里插入图片描述

2.网络框架

​该网络先对输入数据经过特征提取、降维操作以及裁剪之后进行初步的融合,获取场景中包含前景的区域(进行初步的回归),然后将场景中的候选区域投影到鸟瞰图与RGB图后获得待裁剪区域进行裁剪与调整到统一的大小再经过融合获取场景中不同物体的检测类别及其3D物体检测框。

2.1 激光点云数据预处理

AVOD对于激光点云处理相对于MV3D进行了一些简化。去除了强度图,对于点云的高度图划分成M层,即z在(0,2.5)的范围内,以0.5为间隔取得5层,每层中的每个网格取高度最大的点云。

​对于密度图的处理是 :
m i n ( 1.0 , l o g ( N + 1 ) l o g ( 64 ) ) min(1.0, \frac{log(N+1)}{log(64)}) min(1.0,log(64)log(N+1))

2.2 特征提取

​网络前端的Feature Extractor对输入数据进行了提取后获得特征图,对比MV3D中的特征提取器(改进的VGG-16),AVOD的特征提取器使用了FPN进行激光点云与RGB图像的特征提取,具有多尺度检测的能力(包含底层与高层的信息),在小物体检测方面相比于MV3D具有一定优势。
在这里插入图片描述

2.3 降低数据量

​在经过各自的特征提取后,由通过了1*1的卷积操作降低了通道数。引用原论文中的话:

In some scenarios, the region proposal network isrequired to save feature crops for 100K anchors in GPUmemory. Attempting to extract feature crops directly from
high dimensional feature maps imposes a large memory overhead per input view. As an example, extracting 7 × 7 feature crops for 100K anchors from a 256-dimensional
feature map requires around 5 gigabytes1 of memory assuming 32-bit floating point representation. Furthermore, processing such high-dimensional feature crops with the RPN greatly increases its computational requirements.

​这在一定程度上减少了内存开销。

2.4 3D后选区域生成

​在送入3D的候选区域生成网络前,由于不同的数据生成的特征图大小不同,网络中采用了Crop and Resize操作,也就是将融合得到的3D检测框分别投影到对激光点云鸟瞰图的特征图和RBG图像中获得带裁剪区域进行裁剪和统一大小的缩放(7*7),参考自[1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors (arxiv.org)。MV3D使用的则是ROI Pooling,这两种不同的操作都能达到特征图大小统一的作用,但对最终的物体检测哪个效果好,如果有大佬知道还请指出。

​进行第一阶段的融合,大致的作用应该是类似于Faster RCNN吧,区分哪些是前景哪些是背景,获取它们的检测框位置,然后使用NMS过滤掉一些框,将剩下的候选区域投影到激光点云鸟瞰图与RGB图像中,进行第二阶段的融合,过程与第一次类似。
在这里插入图片描述

2.5 3D检测框编码

在这里插入图片描述
​在MV3D中使用的是8角点的编码方式,论文中说明了8角点相对于轴对齐的编码方式的优势在于可以计算对象的方向,而AVOD中指出8角点的方式不仅冗余而且没有对长方体检测框进行约束,因此提出了使用底面的四个角点的x和y的坐标以及长方体底面距离地面的距离和顶面距离地面的距离,相比于8角点的编码方式减少了参数量,但是在实验中结果中并没有进行对比来显示这种编码方式确实有优势。

2.6 朝向估计

在这里插入图片描述
​在MV3D中对于物体朝向的估计是根据物体的长边来大致确定物体的朝向,但是这种方法无法区分相差±180°的情况,同时对于行人的检测这种方法也不太可行。

​因此,针对这种问题AVOD中使用了一种方法,在朝向估计中引入了(cosθ, sinθ),θ限制在(-Π, Π)。这样在朝向相差180°是就会不会出现分歧,都有各自特定的数值。

​如果上述的解读有不足的地方,请大佬指出,感谢。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: QLV转换MP4的工具是一种能够将以.qlv为视频格式的文件转换成以.mp4为视频格式的文件的软件工具。QLV文件是由QVOD播放器创建的一种多媒体格式,常用于在线视频播放和下载,而MP4是一种被广泛应用的视频格式,适用于很多不同平台的视频播放。 QLV转换MP4的工具虽然种类繁多,但大多数的软件都具有使用简便和功能全面的特点。使用该工具转换视频格式所需的步骤一般包括:下载和安装转换软件、选择或导入目标文件、选择输出文件的格式(MP4)、设置输出文件的存储位置以及开始转换,工具通常能够自动将视频格式进行转码,转换成为用户所需的视频格式。 QLV转换MP4的工具不仅可以扩大视频文件的播放范围,也可以适应不同平台和播放设备,如智能手机、平板电脑、笔记本电脑、家庭媒体中心等,提供更好的视频播放体验。此外,使用该工具可以将下载的视频文件从原本需要使用QVOD播放器进行播放的QLV格式,转换成为常规的MP4格式,方便用户随时随地进行播放和分享。 ### 回答2: QLV是一种专用的视频格式,主要用于高清影视片源的传播和共享。在观看QLV格式的视频时,需要特定的播放器软件才能播放。但有时我们需要将QLV格式的视频转换成其他常见的视频格式,如MP4,以便更方便地观看和分享。下面介绍几种QLV转换MP4的工具。 1. 万能转换器:这是一款多功能的视频转换器,可以将包括QLV在内的各种格式的视频文件快速转换为MP4格式。 2. Any Video Converter:这款软件可以在桌面运行,将QLV格式的视频转化为易于共享、播放和编辑的MP4格式。用户只需拖放视频文件到软件中进行转换即可。 3. FormatFactory:这是一款免费的视频转换软件,可以将各种格式的视频文件转换为MP4、AVI、MKV等常见格式。支持批量转换,提高了转换效率。 总之,以上三款软件都是很优秀的QLV转换MP4工具,用户可以根据自己的需要进行选择。转换过程中需要注意保护视频质量和转换速度,选择合适的配置参数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值