An Overview Of 3D Object Detection( 3D目标检测综述)阅读笔记

An Overview Of 3D Object Detection( 3D目标检测综述)阅读笔记

下载链接:https://arxiv.org/pdf/2010.15614.pdf

摘要

点云3D目标检测是近年来备受关注的3D计算机视觉领域的研究热点。然而,在激光雷达中识别三维物体,由于点云的复杂性,光探测和测距仍然是一个挑战。行人、自行车或交通锥等物体通常用稀疏点表示,这使得仅使用点云进行检测相当复杂。在这个项目中,我们提出了一个使用RGB和点云数据的框架进行多类目标识别。我们利用现有的二维检测模型来定位RGB图像中感兴趣区域,然后在点云中采用像素映射策略,最后将初始的2D边界框提升到3D空间。我们使用最近发布的nuScenes数据——一个包含许多数据格式的大规模数据集——来训练和评估我们提出的架构。
关键词: 3D目标检测, 机器学习, 雷达点云

引言

目标检测的任务就是找到所有的图像中所有的ROI并且确定它们的位置和类别。由于不同物体的外表、形状、姿态不同,以及成像过程中受到光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域的一个具有挑战性的问题。

Section II(数据格式)

A. 数据集

  1. 深度图:一幅图像或图像通道,它包含了视点中场景物体表面距离的信息。深度图类似于灰度图,除了每个像素是传感器和对象之间的实际距离。一般来说,RGB图像和深度图像是注册的,所以像素之间有一对一的对应关系。RGB-D格式的数据集包括Pascal VOC,COCO ,ImageNet等。
  2. 雷达数据:雷达数据是通过向物体表面发送无线电波来收集的,然后利用反射信息来计算物体的速度和到物体的距离。然而,单靠雷达无法提供足够的信息用于探测和分类,因此对不同类型的数据进行融合非常重要。
  3. 点云数据:三维坐标系中的一组向量,这些向量通常用X、Y、Z三个三维坐标表示,通常用来表示物体外表面的形状。并且,每个点云可以包括RGB颜色像素、灰度值、深度和法线。大多数点云通过3D扫描生成,以.LAS和,LAZ格式输出。

B. 预处理
实际应用中,如天气等因素会影响图像的质量,因此会降低检测准确率。运用去雾等算法预处理。除了改善图像质量,摄像机标定常用于确定图像在三维空间中的位置。而且有些数据集会遇到类不平衡的问题,采用数据增强方法。

Section III (2D目标检测)

A. 传统方法
传统的目标检测算法通常基于各种特征描述子。HOG结合SVM分类器用于目标检测,尤其在行人检测上取得巨大成功。在人脸跟踪问题中,利用基于梯度的Hough变换来定位眼睛虹膜的位置。Radon变换在医学图像处理中应用广泛。它也可用于识别任务。在地面空中交通场景的视觉手势识别中应用了Radon变换,获得了很好的识别率。有时除了特征提取,还涉及到图像分割。描述了一种使用梯度向量流在三维切片上提取相关轮廓的方法(预防)蛇。另一个问题是由摄像机的运动引起的,随着采集数据的设备种类的增加,越来越多的数据来自移动摄像机。

B. 深度学习方法
物体识别是指对图像或视频中的物体进行识别的一系列相关任务。目标是找到图像中所有感兴趣的对象,并确定它们的2D位置。感兴趣的区域通常由边界框定义。深度学习在目标检测领域的方法主要分为两大类:two–stage(region proposal + detection); single–stage。
two-stage是由算法生成的一系列候选框作为样本,然后通过卷积神经网络对样本进行分类,并修正候选框的位置的方法。
single-stage可以直接将目标边界定位问题转化为回归问题,而不产生候选框。
区别:前者在检测精度和定位精度上有优势,而后者在算法速度上有优势。
框架亦有两种:two–stage, single–stage。
第一种:生成区域建议,然后将其分类为不同的对象类别,也叫做region-based方法。代表模型:R-CNN全家桶,R-FCN等。
第二种:模型将目标检测任务视为一个统一的、端到端的回归问题。在这种框架中,图像被缩放到相同的大小,并被平等地划分为网格。如果目标的中心落在一个网格单元中,这个网格单元负责预测目标。这样,模型只需要对图片进行一次处理,就可以得到位置和分类信息。代表模型:YOLO家族,SSD,FPN,RetinaNet,Mask R-CNN。与第一种框架相比,这种框架通常结构更简单,检测速度更快。

Section IV (3D目标检测)

基于数据信息分为三个主要类别
1. 使用RGB图像进行物体检测
RGB图像具有丰富的语义信息,对于目标检测非常有用。图2是一个使用二维图像的目标检测示例。像3D-GCK这样的方法使用单眼专用RGB图像,可实现实时车辆检测。它首先预测二维边界框,并使用神经网络来估计缺失的深度信息,提升2D边界框到3D空间。
最近的一项工作使用RGB-D传感器,但只利用灰度信息来识别没有纹理的物体。该算法首先将传感器获取的RGB图像转换为灰度图像,然后分割出背景和前景。在去除噪声后,利用5个分类模型进行特征提取,最终预测目标的类别。

在这里插入图片描述

2. 使用点云进行物体检测
主要有两种分类网络:直接使用三维点云数据,无信息丢失,但由于三维数据的复杂性,其计算代价往往很高;将点云处理为二维数据,减少了计算量,但不可避免地失去了原始数据的一些特征。图3是三维激光雷达点云数据的检测示例。
第二种分类网络:(I) 在数据预处理阶段,以图像中心为原点,以固定半径旋转,从64个不同角度截取点云图像。由于在场景中增加了额外的旋转,并且在分类过程中利用了许多实例,因此该方法在一定程度上减少了信息损失。其他的在柱面上投射点云以保留尽可能多的信息。(II)BirdNet+提供了一个基于激光雷达数据的三维物体检测端到端解决方案。需要的鸟瞰视图表示是由激光雷达点云转换而来的具有三个通道的二维结构,它依赖两阶段架构来获得三维方向的盒体。(III)深度点云测绘网络(DPC-MN)提出了一种基于无监督深度学习的计算高效的端到端鲁棒点云对齐和目标识别方法。该模型可以在不需要标签的情况下进行训练,并有效地实现了从三维点云表示到二维视图的映射功能。

在这里插入图片描述

3. 结合RGB图像和点云的目标检测
MV3D[37]也使用RGB图像和激光雷达点云数据作为输入。它将3D点云投影到鸟瞰图和前视图。鸟瞰图表示由高度、强度和密度编码,而前视图是通过将点云投影到柱面生成的。鸟瞰图用于生成3D先验框,然后投射到前视图和图像。这三个输入都会生成一个特征图。采用ROI池化的方法,将三个特征映射整合到同一维度。融合后的数据通过网络进行融合,输出分类结果和边界框。

在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值