[论文阅读]FCAF3D——全卷积无锚 3D 物体检测

最新推荐文章于 2024-07-03 23:02:20 发布

一朵小红花HH

最新推荐文章于 2024-07-03 23:02:20 发布

阅读量8.9k

点赞数

分类专栏：基于点云的三维目标检测文章标签：论文阅读 3d 人工智能目标检测深度学习

本文链接：https://blog.csdn.net/qq_53909832/article/details/133847014

版权

基于点云的三维目标检测专栏收录该内容

25 篇文章 15 订阅

订阅专栏

FCAF3D

FCAF3D：Fully Convolutional Anchor-Free 3D Object Detection
FCAF3D：全卷积无锚 3D 物体检测
论文网址：Fcaf3d
代码网址：Fcaf3d

简读论文

Fcaf3d
这篇论文介绍了一个用于室内3D物体检测的全卷积 Anchor-Free 方法 FCAF3D。主要贡献如下:

提出了第一个用于室内3D物体检测的全卷积Anchor-Free方法FCAF3D。
提出了一种新的旋转框参数化方法,可以提高多个现有3D物体检测方法在SUN RGB-D数据集上的精度。
在ScanNet、SUN RGB-D和S3DIS这三个室内3D物体检测基准数据集上,该方法在mAP指标上显著优于之前的state-of-the-art方法,同时也更快。

方法概述:

网络架构:采用稀疏卷积网络,包括骨干网络、颈部和头部。骨干网络使用稀疏3D ResNet,颈部使用稀疏3D转置卷积层,头部是一个简单的全卷积预测分支。
Anchor-Free:头部直接在每个位置预测类别概率、框回归参数和中心度,不需要先设置anchors。采用中心抽样策略匹配ground truth。
旋转框参数化:提出一种基于Möbius带的旋转框参数化方法,可以避免手工设置旋转角度bin,提高泛化能力。
旋转框参数化指的是如何表示一个三维旋转框(Oriented 3D Bounding Box)。一个旋转框可以由中心坐标(x,y,z)、长宽高(w,l,h)以及旋转角度(θ)表示。在FCAF3D中提出了一种新的旋转框参数化方法:1.将w/l表示为q。2.将θ转换为(ln(q)sin(2θ), ln(q)cos(2θ))。最终旋转框用(x,y,z,w+l,h,ln(q)sin(2θ), ln(q)cos(2θ))这7个参数表示。相比直接回归θ,这种参数化方法的优点有:1.可以避免设置角度bin,因为直接回归θ需要先将连续的θ分成几个bin,这需要手动设置。2.可以处理w=l的退化情况,即物体没有明显的前后之分时,θ的取值无法确定,导致训练困难。该方法可以解决这个问题。3.不依赖与数据集相关的角度先验知识,更加泛化。4.减少了超参数和可训练参数的数量。5.经实验证明,这种参数化可以提升多个现有方法在SUN RGB-D数据集上的精度,因此其泛化能力更强。
总之,这种基于Möbius带的旋转框参数化方法,使网络可以更加从数据中学习,减少了先验假设,增强了泛化能力,是一种更好的旋转框表示方法。
多尺度:利用骨干网络的多级特征,不同尺度的物体分配到不同的特征级上,无需手工设置阈值。
评估结果:在ScanNet、SUN RGB-D和S3DIS数据集上优于之前所有方法,证明了该方法的有效性。

总结:

该方法是第一个采用全卷积Anchor-Free设计的室内3D物体检测方法。
通过稀疏卷积和多尺度特征,使其对大场景也具有很好的扩展性。
新的旋转框参数化方法提高了泛化能力,不依赖与数据集相关的先验。
在三个室内3D检测基准数据集上都取得了state-of-the-art的结果。
相比其他方法,该方法设计简单、高效、Accurate,值得学习和参考。

摘要

最近，点云 3D 物体检测在机器人和增强现实领域的前景广阔的应用引起了人们的广泛关注。本文提出了 FCAF3D——一种一流的全卷积无锚室内 3D 物体检测方法。这是一种简单而有效的方法，使用点云的体素表示并通过稀疏卷积处理体素。 FCAF3D 可以通过单个全卷积前馈通道以最短的运行时间处理大规模场景。现有的 3D 物体检测方法对物体的几何形状做出预先假设，本文认为这限制了它们的泛化能力。为了消除先前的假设，提出了一种新颖的定向边界框参数化，它允许以纯粹数据驱动的方式获得更好的结果。所提出的方法在 ScanNet V2 (+4.5)、SUN RGB-D (+3.5) 和 S3DIS (+20.5) 数据集上实现了最先进的 3D 物体检测结果（mAP@0.5）

引言

基于点云的 3D 目标检测旨在同时定位和识别给定 3D 点集中的 3D 对象。作为3D场景理解的核心技术，它广泛应用于自动驾驶、机器人和AR领域。
虽然 2D 方法适用于密集的固定大小数组，但 3D 方法受到任意体积的不规则非结构化 3D 数据的挑战。因此，2D 数据处理技术不能直接适用于 3D 目标检测，因此 3D 目标检测方法采用创造性方法进行 3D 数据处理。
卷积 3D 对象检测方法存在可扩展性问题：大规模场景要么需要不切实际的计算资源量，要么需要太多时间来处理。其他方法选择体素数据表示并采用稀疏卷积；然而，这些方法以牺牲检测精度为代价解决了可扩展性问题。换句话说，没有一种 3目标检测方法可以提供精确的估计和良好的缩放。
除了可扩展和准确之外，理想的 3D 目标检测方法还应该处理任意形状和大小的对象，而无需额外的修改和手动调整的超参数。本文认为，对 3D 目标边界框的先前假设（例如长宽比或绝对大小）限制了泛化并增加了超参数和可训练参数的数量。
相反，本文不想依赖先前的假设。提出了一种无锚方法，该方法不会对目标强加先验，并使用纯粹的数据驱动方法来解决 3D 对象检测问题。此外，引入了一种新颖的定向边界框（OBB）参数化，其灵感来自于Mobius strip，可以减少超参数的数量。为了证明本文参数化的有效性，使用几种 3D 对象检测方法在 SUN RGB-D 上进行了实验，并报告了所有这些方法的改进结果。
本文提出了 FCAF3D——一种简单、有效且可扩展的方法，用于从点云中检测 3D 对象。在 ScanNet 、SUN RGB-D 和 S3DIS 上评估了所提出的方法，证明了在所有基准测试中相对于之前最先进的方法的坚实优越性。在 SUN RGB-D 和 ScanNet 上，本文的方法比其他方法至少高出 3.5% mAP@0.5。在 S3DIS 上，FCAF3D 大幅领先竞争对手。
贡献：

提出了一种用于室内场景的一流的全卷积无锚 3D 物体检测方法 (FCAF3D)。
提出了一种新颖的 OBB 参数化，并证明它可以提高 SUN RGB-D 上几种现有 3D 物体检测方法的准确性。
在挑战大型室内 ScanNet、SUN RGB-D 和 S3DIS 数据集方面，本文的方法在 mAP 方面显著优于之前的最先进方法，同时推理速度更快。

相关工作

最近的 3D 目标检测方法被设计为室内或室外。室内和室外方法几乎是独立开发的，应用特定领域的数据处理技术。许多现代户外方法[Second]、[Pointpillars]、[Voxelnet]将3D点投影到鸟瞰平面上，从而将3D目标检测的任务减少为2D目标检测。当然，这些方法利用了快速发展的二维物体检测算法。给定鸟瞰投影，[3d fully convolutional network for vehicle detection in point cloud]以全卷积的方式对其进行处理，而[Center-based 3d object detection and tracking]则利用 2D 无锚方法。不幸的是，被证明对 2D 目标检测和 3D 室外目标检测有效的方法不能轻易地适用于室内，因为它需要大量不切实际的内存和计算资源。为了解决性能问题，人们提出了不同的 3D 数据处理策略。目前，三种方法在 3D 目标检测领域占据主导地位：基于投票、基于 Transformer 和 3D 卷积。下面详细讨论这些方法；本文还提供了无锚方法的简要概述。
Voting-based methods. ： VoteNet 是第一个引入点投票进行 3D 目标检测的方法。 VoteNet 使用 PointNet 处理 3D 点，根据投票中心为每个候选对象分配一组点，并计算每个点组的对象特征。在 VoteNet 的众多后继者中，主要进展与应用于 PointNet 功能的高级分组和投票策略相关。 BRNet 利用投票中心的代表点来细化投票结果，从而改善了对精细局部结构特征的捕获。 MLCVNet 在 VoteNet 的投票和分类阶段引入了三个上下文模块，以对不同级别的上下文信息进行编码。 H3DNet 通过预测几何基元的混合集来改进点组生成过程。 VENet 结合了注意力机制，并引入了通过新颖的投票吸引力损失训练的投票加权模块。
所有类似 VoteNet 的基于投票的方法都受到设计的限制。首先，它们的可扩展性很差：由于它们的性能取决于输入数据量，因此如果给定更大的场景，它们往往会变慢。此外，许多基于投票的方法将投票和分组策略实现为自定义层，这使得很难重现或调试这些方法或将它们移植到移动设备。
Transformer-based methods. ：最近出现的基于 Transformer 的方法使用端到端学习和前向传递推理，而不是启发式和优化，这使得它们的领域特定性较低。 GroupFree 用Transformer模块替换 VoteNet 头，迭代更新对象查询位置并集成中间检测结果。 3DETR 是第一个作为端到端可训练Transformer实现的 3D 目标检测方法。然而，更先进的基于Transformer的方法仍然遇到类似于早期基于投票的方法的可扩展性问题。不同的是，本文的方法是全卷积的，因此比基于投票和基于Transformer的方法更快且更容易实现。
3D convolutional methods. ：体素表示允许有效处理立方增长的稀疏 3D 数据。基于体素的 3D 目标检测方法将点转换为体素并使用 3D 卷积网络对其进行处理。然而，密集的体积特征仍然消耗大量内存，并且 3D 卷积的计算成本很高。总体而言，处理大型场景需要大量资源，并且无法在单遍内完成。
GSDN 通过稀疏 3D 卷积解决性能问题。它具有编码器-解码器架构，编码器和解码器部分均由稀疏 3D 卷积块构建。与标准的基于卷积投票和基于Transformer的方法相比，GSDN 的内存效率明显更高，并且可以在不牺牲点密度的情况下扩展到大型场景。 GSDN 的主要弱点是它的准确性：该方法在质量方面与 VoteNet 相当，但明显逊色于当前最先进的技术。
GSDN 使用 15 个长宽比的 3D 对象边界框作为锚点。如果 GSDN 在单一长宽比的无锚设置中进行训练，则准确率会下降 12%。与 GSDN 不同，本文的方法是无锚的，同时利用稀疏 3D 卷积。
RGB-based anchor-free object detection. ：在 2D 物体检测中，无锚方法是标准基于锚的方法的有力竞争对手。 FCOS 以每像素预测的方式解决 2D 对象检测问题，并显示出比其基于锚的前身 RetinaNet 的稳健改进。 FCOS3D 通过添加用于单目 3D 目标检测的额外目标来简单地适应 FCOS。 ImVoxelNet 使用由标准（非稀疏）3D 卷积块构建的类似 FCOS 的头部解决了同样的问题。本文采用上述无锚方法的思想来处理稀疏的不规则数据。

Proposed Method

遵循标准 3D 检测问题陈述，FCAF3D 接受 Npts RGB 颜色点并输出一组 3D 对象边界框。 FCAF3D 架构由骨干、颈部和头部组成（如图 2 所示）。
Fcaf3d
在设计 FCAF3D 时，本文的目标是可扩展性，因此选择类似 GSDN 的稀疏卷积网络。为了更好的泛化，减少了该网络中需要手动调整的超参数的数量；具体来说，简化了颈部的稀疏修剪。此外，引入了具有简单的多级位置分配的无锚头。最后，讨论了现有 3D 边界框参数化的局限性，并提出了一种新颖的参数化方法，可以提高准确性和泛化能力。

Sparse Neural Network

Backbone. ： FCAF3D 的主干是 ResNet 的稀疏修改，其中所有 2D 卷积都替换为稀疏 3D 卷积。 ResNet 的稀疏高维版本系列在 [4d spatio-temporal convnets] 中首次介绍；为简洁起见，将它们称为 HDResNet。
Neck. ：颈部是一个简化的 GSDN 解码器。每个级别的特征均使用一个稀疏转置 3D 卷积和一个稀疏 3D 卷积进行处理。每个内核大小为 2 的转置稀疏 3D 卷积可能会将非零值的数量增加 23 倍。为了防止内存快速增长，GSDN 使用剪枝层，通过概率掩码过滤输入。
在 GSDN 中，特征级别的概率是通过附加的卷积评分层来计算的。该层经过特殊损失的训练，鼓励预测的稀疏性和锚点之间的一致性。具体来说，如果与当前体素关联的任何后续锚点为正，则体素稀疏度设置为正。然而，使用这种损失可能不是最理想的，因为对象的远处体素可能以较低的概率被分配。
为了简单起见，删除了具有相应损失的评分层，并使用头部分类层的概率。本文不调整概率阈值，而是保留最多 Nvox 体素来控制稀疏程度，其中 Nvox 等于输入点 Npts 的数量。本文声称这是一种防止稀疏性增长的简单而优雅的方法，因为重用相同的超参数使过程更加透明和一致。
Head. ：无锚 FCAF3D 头部由三个并行的稀疏卷积层组成，其权重在特征级别之间共享。对于每个位置（x、y、z），这些层分别输出分类概率 p、边界框回归参数 δ 和中心度 c。该设计类似于FCOS的简单且轻量级的头部，但适应3D数据。
Multi-level location assignment. ：在训练期间，FCAF3D 输出不同特征级别的位置 {(ˆx, ˆy, ˆz)}，这些位置应分配给地面真值框 {b}。对于每个位置，FCOS 和ImVoxelNet 考虑覆盖该位置的地面真实边界框，其面都在距离阈值内，选择体积最小的边界框，并将其分配给该位置。这种策略不是最理想的，其改变在 2D 目标检测中被广泛探索。 ImVoxelNet 使用修改后的策略，需要手动调整每个特征级别的面部距离阈值。
本文提出了一种稀疏数据的简化策略，不需要调整特定于数据集的超参数。对于每个边界框，选择该边界框至少覆盖 Nloc 位置的最后一个特征级别。如果没有这样的功能级别，选择第一个。还通过中心采样过滤位置，仅将边界框中心附近的点视为正匹配。
通过分配，一些位置 {(x,y,z)} 与真实边界框 bx,y,z 进行匹配。因此，这些位置与地面真实标签 pˆx、ˆy、ˆz 和 3D 中心值 cˆx、ˆy、ˆz 相关联。在推理过程中，按照[Imvoxelnet]中的建议，在 NMS 之前将分数 ^p 乘以 3D 中心度 ^c。
Loss function. ：总体损失函数公式如下：
Loss

Bounding Box Parametrization

3D 对象边界框可以是轴对齐 (AABB) 或定向 (OBB)。 AABB 可以描述为 bAABB = (x, y, z, w, l, h)，而 OBB 的定义包括航向角 θ： bOBB = (x, y, z, w, l, h, θ ）。在两个公式中，x、y、z 表示边界框中心的坐标，而 w、l、h 分别表示边界框的宽度、长度和高度。
AABB parametrization. ：对于 AABB，遵循[Imvoxelnet]中提出的参数化。具体来说，对于基本事实 AABB (x, y, z, w, l, h) 和位置 (ˆx, ˆy, ˆz)，δ 可以表示为 6 元组：
在这里插入图片描述
Heading angle estimation. ：所有最先进的点云 3D 对象检测方法都将航向角估计任务作为分类和回归来解决。航向角分为bins；然后，在箱内回归精确的航向角。对于室内场景，从 0 到 2π 的范围通常分为 12 个相等的 bin 。对于室外场景，通常只有两个容器[Second]、[Pointpillars]，因为道路上的物体可以与道路平行或垂直。
当选择航向角bin时，通过回归来估计航向角值。 VoteNet 和其他基于投票的方法直接估计 θ 的值。户外方法探索更复杂的方法，例如预测三角函数的值。例如，SMOKE 估计 sin θ 和 cos θ 并使用预测值来恢复航向角。
Proposed Mobius OBB parametrization. ：考虑带有参数 (x, y, z, w, l, h, θ) 的 OBB，表示 q = w/l 。如果 x, y, z, w+ l, h 固定，则 OBB 具有
在这里插入图片描述
定义相同的边界框。本文注意到 (q, θ) 的集合，其中 θ ε (0, 2π], q ε (0, +inf) 在拓扑上等价于莫比乌斯带直到这个等价关系。因此，可以重新表述将估计 (q, θ) 的任务作为预测莫比乌斯带上的点的任务。将作为二维流形的莫比乌斯带嵌入欧几里德空间的自然方法如下：
在这里插入图片描述
总的来说，我们获得了一种新颖的 OBB 参数化：

结论

本文提出了 FCAF3D，这是一种用于室内场景的一流全卷积无锚 3D 对象检测方法。在 mAP 和推理速度方面，本文的方法在具有挑战性的室内 SUN RGB-D、ScanNet 和 S3DIS 基准测试中显着优于之前的最先进方法。还提出了一种新颖的定向边界框参数化，并表明它提高了几种 3D 对象检测方法的准确性。此外，所提出的参数化可以避免任何关于对象的先前假设，从而减少超参数的数量。总体而言，采用本文的边界框参数化的 FCAF3D 同时具有准确、可扩展和可推广的特点。