目标检测概念

目标检测方法在2D视觉识别中非常成功。

        它们通常涉及两个方面:主干网和检测头

输入图像通过主干网络学习潜在特征,检测头根据特征预测边界盒。在3D中,由于数据的稀疏性,需要考虑许多特殊因素来提高效率和性能。下面,我们将讨论一般目标检测的相关工作,以及与点云学习相关的更一般的方法。

二维目标检测。

RCNN开创了现代两阶段目标检测方法;较新的模型通常遵循类似的模板。RCNN使用简单的选择性搜索来查找感兴趣的区域(区域建议),然后将卷积神经网络(CNN)应用于自下而上的区域建议,以回归边界框参数。RCNN可能效率低下,因为它将CNN应用于每个区域建议或图像补丁。

                                                                图1.RCNN模型 

Fast RCNN通过共享来自同一图像的区域建议的特征来解决此问题:它以一次拍摄的方式通过CNN传递图像,然后从共享特征图中裁剪区域特征并调整其大小。更快的RCNN通过将选择性搜索替换为区域建议网络(RPN),其功能可以共享,从而进一步提高了速度和性能。掩码RCNN构建在更快的RCNN之上。除了框预测之外,它还为掩码预测添加了另一条路径,支持使用单个管道进行对象检测、语义分割和实例分割。

 图2.FAST RCNN 模型

Mask RCNN建议使用双线性插值(ROI ALLIGN)来避免量化误差,而不是使用ROIPool将特征面片调整为固定大小的网格。除了一般两阶段目标检测模型中的重大结构变化外,使用图像处理和形状注册的机器进行的扩展还包括:利用特征金字塔的多尺度信息,盒预测的迭代细化,以及使用可变形卷积获得一个自适应的感受野。最近的工作还表明,anchor-free方法在2D中实现了与现有两阶段目标检测模型相当的结果。

 图3.MASK RCNN 模型

除了两阶段目标检测外,许多工作的目标是通过一阶段算法设计实时目标检测模型。这些方法密集地放置anchor,这些anchor定义图像中的位置先验和大小先验,然后使用联合交集(IoU)阈值将每个锚定与地面真实相关联。网络对每个anchor进行分类并回归anchor的参数;非最大抑制(NMS)消除冗余预测。SSD和YOLO是这种方法的代表性示例。视网膜网是建立在这样一个观察的基础上的:在训练过程中遇到的极端前景-背景类不平衡导致一级检测器落后于两级检测器的精度。它提出了一种焦距损失,以放大一组稀疏的硬示例,并防止在训练期间容易出现的负片压倒检测器。与图像目标检测类似,我们还发现Wang等人提出的不平衡问题导致了3D目标检测的不稳定性。然而,与视网膜网不同的是,我们用以支柱为中心的预测来取代anchor,以减轻不平衡。

在点云上学习。点云提供了3D形状和场景的自然表示。然而,由于重新排序下的不规则性和对称性,在点云上定义类似卷积的运算是困难的。

PointNet举例说明了在原始点云上运行的广泛的深度学习体系结构。它使用共享多层感知器(MLP)将点提升到高维空间,然后使用对称集函数聚集点的特征。PointNet通过构建点云的分层抽象来利用本地上下文。DGCNN使用K近邻图上的图神经网络(GCN)来学习几何特征。KPConv定义了一组内核点来执行可变形卷积,提供了比固定网格卷积更大的灵活性。PCNN定义扩展和限制操作,将点云函数映射到体积函数,反之亦然。SPLATNet将点云渲染到晶格网格并执行晶格卷积。

 图4.POINTNET模型

FlowNet3D和MeteorNet采用这些方法,学习动态点云上的逐点流。除了高级点云识别外,最近的工作还利用点云网络解决了低级注册问题,并且与传统的基于优化的方法相比有了显著的改进。但是,这些基于点的方法受到点云中点数量的限制,无法扩展到较大的范围。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值