【论文阅读】3D点云 -- BRNet:Back-tracing Representative Points for Voting-based3D Object Detection in PC

前言

该篇论文是对3D室内点云 进行目标检测的方法的研究。其方法是基于votenet方法上进行的改良。所以了解这篇论文方法,需要先了解votenet。
votenet主要问题为:尽管投票聚集中心非常准确,但投票点通常不像我们预期的那样具有代表性。种子点的获取,不可避免地受到离群值的影响,包含来自杂乱背景的异常值,使投票的可靠性降低。

BRNet提出了回溯的想法。与传统的回溯策略不同,BRNet提出了一个代表点生成(RPG)模块,以生成的方式从投票中向后回归虚拟生成的代表点。具体的为:

  • 从投票聚类中心,来初步预测可能存在对象的框,以类无关方式的回归框的中心大小方向
  • 在框内均匀采样,来完成种子点的回溯重访,并生成代表点。这样,回溯的种子点可以补充局部结构信息,有利于预测结果

Abstract

点云中的三维目标检测是一项具有挑战性的视觉任务,有利于理解三维视觉世界的各种应用。

  • 【研究方向】最近的许多研究集中在如何利用端到端可训练的Hough投票来生成对象提案。
  • 【存在问题】然而,当前的投票策略只能从潜在对象的表面获得部分投票,同时从杂乱的背景中获得严重的异常投票,这阻碍了输入点云信息的充分利用。
  • 【解决方法】受传统Hough投票方法中回溯策略的启发,本文介绍了一种新的三维目标检测方法,称为回溯代表点网络(BRNet),生成追溯投票中心的代表点,并重新访问这些生成点周围的互补种子点,以便更好地从原始点云捕获潜在对象周围的精细局部结构特征。因此,在我们的BRNet中,这种自下而上然后自上而下的策略加强了预测投票中心和原始表面点之间的相互一致性,从而实现了更可靠、更灵活的对象定位和类预测结果。
  • 【当前效果】我们的BRNet简单但有效,在两个大规模点云数据集ScanNet V2 (mAP@0.50上升7.5%)和SUN RGB-D(mAP@0.50上升4.7%),显著优于最先进的方法,但它仍然是轻量级和高效的。代码将在https://github.com/cheng052/BRNet.

1. Introduction

作为理解三维视觉世界的基本任务之一,三维物体检测需要预测真实三维场景中物体的三维边界盒和相关语义标签。三维目标检测技术将大大有利于各种下游现实世界的应用,如增强现实、机器人等。在这项工作中,我们重点关注点云的三维目标检测。更具挑战性的是,这种特殊3D输入的不规则、稀疏和无序特性,使得利用2D对象检测的最新进展设计出可靠的基于点的3D对象检测系统成为一项艰巨的任务。

  • votenet的提出
    虽然早期的研究将点云重新排序为规则形式[3,7,32,33,43],或应用预定义的形状模板[15,19,40],但VoteNet[20]及其变体[36,41,2,1]在基于原始点云设计端到端三维目标检测网络方面取得了巨大成功。VoteNet将传统的Hough投票过程转化为逐点回归问题,并通过从投票在同一簇内的输入点云中采样多个种子点来生成对象提案。然后使用每个投票簇中的聚合特征来估计3D边界框(例如,中心、大小和方向)和关联的语义标签。

  • votenet的问题
    因此,回归投票的质量主要决定生成提案的可靠性,然后决定在目标检测器上的性能。然而,尽管投票聚集中心非常准确,但投票点通常不像我们预期的那样具有代表性。例如,如图1所示,通过从给定投票簇检索投票的种子点,这些对应的种子点要么部分覆盖底层对象(图1(a))要么包含来自杂乱背景的严重离群值(图1(b))。因此,如图1(a)所示,毫无疑问,如果投票仅捕获投票中心周围的一个小区域,我们无法准确预测长书架的边界框。同样,如图1(b)所示,严重的异常值使得无法基于投票特征准确检测主席。此外,由于缺乏来自投票的知识,这些种子点的信息较少,因此,如果我们简单地回溯这些种子特征(如传统的Hough投票[14]),以改进基于投票的3D对象检测方法,那么将不会有太大的收益。
    在这里插入图片描述
    ​​ 图1。VoteNet[20]及其变体生成的投票通常受到(a)对象表面部分覆盖,(b)杂乱背景中的异常值的影响。通过检查相应的种子点,从这些投票中生成的建议接收到与对象相关的不稳定特征,并且在预测精确的边界框、方向甚至语义类时可能不太可靠。

  • 回溯想法的提出
    然而,在我们看来,追溯仍然是必要的,可以通过特殊设计部分解决上述问题。
    [投票簇中心 重访种子点] 具体来说,如图2所示,我们希望从每个投票簇的中心向后生成(或跟踪)虚拟代表点,并使用这些虚拟点重新访问其周围的种子点。[种子点补充局部结构信息] 这种生成性回溯操作指示投票中心周围可能存在的对象形状分布,而重新访问的种子特征提供了补充的局部结构信息,投票可能无法完全发现这些线索。[种子特征和投票特征相结合] 这种自下而上然后自上而下的过程最终会产生相互作用,将种子特征和投票特征关联起来,这有可能增强彼此的特征,并实现更稳健的对象类预测和更精确的边界框回归。
    在这里插入图片描述
    图2。回溯代表点并重新访问种子点。我们显示了两张椅子的投票中心(紫色点)。代表点从投票聚类中心追溯(红色点)。在这种情况下,我们将每个提案的代表点数设置为12,如右边的chair。然后,重新访问代表点固定距离内的种子点,如左椅子上的蓝色点所示。重新访问的种子点提供了椅子表面的良好覆盖,这意味着物体的形状,并保持椅子扶手的结构细节。

  • BRNet的设计
    为此,我们提出了一种新的基于点云的三维目标检测方法,称为回溯代表点网络(BRNet),该方法将端到端可学习的回溯和重访操作合并到基于投票的框架中。具体来说:

    • 【从投票簇中心 学习代表点】我们提出了一个代表点生成模块,该模块基于投票聚类中心的特征,在候选对象的三维区域内生成均匀分布的代表点。 生成的点可以粗略地推断对象边界框,即使它们的采样过程与类无关。
    • 【代表点重访种子点】每个代表点的重访种子点以类似于ROI网格池的方式聚集[28],但基于代表点的空间布局。在融合重新访问的种子点的聚集特征和投票聚类中心的特征后,我们得到最终检测对象的改进方案。请注意,预测的边界框回归方案明确取决于代表点的空间分布,因此提高了对象类别内和对象类别之间形状变化的鲁棒性。
  • BRNet的贡献

    • 1. 第一个三维目标检测网络BRNet成功地将Hough投票的回溯步骤应用于三维目标检测。
    • 2. 一个端到端的可学习网络,可以生成性地追溯代表点,可靠地重新访问种子点,然后相互细化对象建议,以实现更稳健的对象分类和更精确的边界框回归。
    • 3. 在两个大规模点云数据集ScanNet V2 (mAP@0.50上升7.5%)和SUN RGB-D(mAP@0.50上升4.7%),显著优于最先进的方法

2. Related Works

【点云上的三维目标检测】
由于三维点的不规则性、稀疏性和无序性,三维点云目标检测具有挑战性。早期的尝试通常依赖于对规则网格的投影,例如

  • 作为多视图图像[3]和体素网格[43,37,12,7,30],
  • 或基于来自RGB驱动的2D提案生成[21,11]或分割假设[8]的候选,其中基于常规图像坐标的现有2D对象检测或分割方法可以轻松适应。
  • 其他方法还研究了如何利用辨别性[15,19]或生成性形状模板[40],
  • 以及高阶语境电位来规范提案的对象性[16],或使用sliding shapes[33,32],或定向梯度云(COG)[27]。

后来:

  • 得益于PointNet[22],深度神经网络已广泛应用于原始点云。例如,PointRCNN[29]引入了两级3D对象检测器,类似于两级2D对象检测方法,如更快的RCNN[26]。
  • 受二维对象检测和实例分割的Hough投票策略[14]的启发,VoteNet[20]建立在PointNet++[23]的基础上,并提出了一种端到端可训练的三维对象检测器。随后,VoteNet[20]的扩展,如MLCVNet[36]、HGNet[2]和3DSSD[39],采用了上下文线索、层次图神经网络和特征FPS采样策略,以更好地生成对象建议。然而,这些方法在很大程度上依赖于[20]中提出的不可靠投票聚类,这不可避免地受到离群值的影响,并且通常忽略了内部种子点。
  • H3DNet[41]通过引入一组混合的过完备几何原语来细化聚集投票预测的初始边界框,部分解决了这个问题。但是,这些原始数据中心是在不太准确的监督下学习的,并且也是通过类似的聚类策略收集的,因此可能仍然无法消除异常值或捕获足够的几何线索来推断目标对象。

【BRNet】
在这项工作中,我们展示了如何利用从投票中心回溯的代表点来补充分析目标对象,从而实现更具区分性的分类和更健壮的边界框回归。

  • 【无锚二维目标检测】
    • 在我们的BRNet中,回溯代表点的实现在二维目标检测中采用了类似的无锚定位策略。与两级2D对象检测器不同,如更快的RCNN[26]、SSD[17]和YOLOv2[25],它们使用预定义的锚生成建议,无锚检测器[13、35、42、34、38、24、5],尤其是基于回归的方法[34、38、10、24、5],要么直接回归边界[24],使用迭代动态采样策略回归对象边界[38],或回归4D偏移作为定位结果的替代[34]。
    • 受这些方法的启发,在我们的方法中,回溯过程依赖于类不可知偏移回归器来检索代表点,这些代表点指示每个投票中心周围可能的形状轮廓,从而为后面的推断提供更多的局部结构线索。与VoteNet[20]及其后继者中预定义的类感知统计数据所限制的本地化不同,建议的BRNet有利于更灵活的回归,而不会失去其辨别能力。
  • 【在目标检测和实例分割中,基于投票的的回溯跟踪】
    • Leibe等人[14]将hough投票策略应用于同时进行2D对象检测和实例分割。该方法的核心部分是在广义Hough变换的概率扩展中学习到的高度灵活的对象形状表示。此外,在3D场景中执行特定类别的对象检测和分割时,在[9]中的工作结合了对象检测的自上而下线索和马尔可夫随机场(MRF)的自下而上能力。这些方法依靠自上而下的策略(如回溯对象假设)来增强自底向上的策略(如Hough投票)。它们之间的一致性相互增强,从而有助于实现更可靠的目标检测。拟议的BRNet也遵循这一理念,基于代表点,采用了新的端到端可培训回溯过程。最近,作为一种3D实例分割方法,3D-MPA[6]采用了“直接”回溯策略,从一个簇中对应的投票中对曲面点进行聚类。相比之下,我们的方法缓解了“生成性”回溯策略固有的部分覆盖和异常值问题。

3. Methodology

在本节中,我们将介绍BRNet的技术细节。3.1节概述了我们的方法。3.2至3.5节,我们阐述了BRNet的网络架构和学习目标。


3.1. 概述

如图3所示,我们的BRNet的输入是一个点云 P ∈ R N ∗ 3 P \in \mathbb{R}^{N*3} PRN3,每个点都有一个3D坐标。此类输入通常来自多视图立体(例如ScanNet[4])或深度传感器(例如SUN RGBD[31])。输出是(定向)边界框B的集合,每个框 b ∈ B b∈ B bB 与预定义的类别标签 l b ∈ C l_b \in C lbC、 世界坐标系中的中心 c b = [ c b x , c b y , c b z ] T ∈ R 3 c_b=[ c_b^x,c_b^y,c_b^z ]^T \in \mathbb{R}^3 cb=[cbx,cby,cbz]TR3、边界框 s b = [ s b x , s b y , s b z ] T ∈ R 3 s_b=[ s_b^x,s_b^y,s_b^z ]^T \in \mathbb{R}^3 sb=[sbx,sby,sbz]TR3的大小、同一世界坐标系xy平面中的方向角 θ b θ_b θb

BRNet由四个主要模块组成:

  • 1. 【投票生成和聚类】给定一个由N个点组成的输入点云,该点云具有XYZ坐标,我们从该点云生成投票,并将投票分组为M个簇,如VoteNet[20]所示。
  • 2. 【回溯代表点生成】对于每一个M个投票聚类中心,我们从中追溯K个代表点。追溯的代表点暗示了对象的可能区域。
  • 3. 【种子点重新访问】然后,我们重新访问代表点周围的种子点,并将周围的种子点特征聚合到代表点。
  • 4. 【提案细化和分类 + 标准3D NMS】提案细化与分类模块对聚集的投票特征和重访的种子特征进行融合和处理,生成细化的代表点和对象的语义类别,并可方便地转换为三维对象边界框。标准3D NMS最终用于生成最终检测结果。

在第一个模块中,我们遵循VoteNet[20]中相同的网络和训练策略来生成种子点、投票和投票簇。我们将在以下部分详细介绍其他三个模块。
在这里插入图片描述
图3。概述了我们提出的用于点云中三维目标检测的BRNet。


3.2. 生成回溯代表点

用于识别对象边界的传统Hough投票回溯步骤[14]对于从部分观测中检测amodal对象来说不太可靠,因为它只拾取有助于所选投票的种子点。例如,在VoteNet[20]中,这些种子点只能捕获聚类中心附近的局部几何区域,同时包含来自杂乱背景的异常值。[20]通过删除回溯步骤并使用类似于PointNet的集合聚合块(仅用于投票)来规避此问题,然后生成对象提案并对其进行分类。然而,上述不完全性问题和投票中的异常值(从种子点传递)显然对检测任务有害。为此,我们认为在基于点的三维目标检测中使用回溯跟踪仍然是有益的,但需要更好的跟踪策略来有效地找到代表性的种子点。与传统的回溯策略不同,我们提出了一个代表点生成(RPG)模块,以生成的方式从投票中向后回归虚拟生成的代表点。生成的代表点均匀分布在候选对象的潜在3D区域内,当与实际周围种子点交互时,该区域还可以指示3D对象形状。

【投票聚类中心 --> 代表点】
具体而言,投票采样和聚类块生成一组投票聚类中心 { v i } i = 1 M \{v_i\}_{i=1}^M {vi}i=1M v i = [ p i T , f i T ] T v_i=[p_i^T,f_i^T]^T vi=[piT,fiT]T,其中 p i ∈ R 3 p_i \in R^3 piR3 作为在3D空间中投票的几何位置, f i ∈ R C f_i \in R^C fiRC 是从前面的网络中提取的特征,M是投票簇的数目。
然后,RPG模块为每个投票群集中心生成一组代表点。该模块不直接采样这些点的三维坐标,而是预测暂定方向 θ i ∈ [ 0 , 2 π ] \theta_i \in [0,2\pi] θi[0,2π] 的潜在对象,并回归偏移距离 x i ∈ R 6 x_i \in R^6 xiR6 v i v_i vi 沿6个标准方向(即前/后/左/右/上/下)到暂定对象的表面,然后在偏移距离范围内沿这些方向(由预测方向倾斜)均匀采样分布的代表点 { r i k = ( x i k , y i k , z i k ) } k = 1 K \{r_i^k=(x_i^k,y_i^k,z_i^k)\}_{k=1}^K {rik=(xik,yik,zik)}k=1K。K是代表点的数量。在这项工作中,我们在每个偏移范围内采样了2个均匀分布的点,因此K=2×6=12 (也就是初步预测了可能对象的框,包括大小位置方向,这些框没有分类信息;然后在这个框里进行均匀采样,以此获取代表点)。

【代表点生成模块的 损失函数】
RPG模块采用多层感知器(MLP)实现,具有ReLU激活功能和批量规范化。它将来自投票中心 v i v_i vi 的特征 f i f_i fi 作为输入,其输出是集合 { x i , θ i } \{x_i,\theta_i\} {xi,θi}。我们使用 e x p ( ⋅ ) exp(·) exp() 将任何实数映射到 ( 0 , ∞ ) (0,∞) (0,) z i z_i zi 的输出上,这个模块由真实(GT)偏移来监督,因为投票中心可以被分配给GT对象,即 L r e p − o f f = 1 M p o s ∑ ∥ X i − X i ∗ ∥ ρ ⋅ I [ v i    i s    p o s i t i v e ]        ( 1 ) L_{rep-off}=\frac{1}{M_{pos}}\sum \left \| X_i-X_i^* \right \|_\rho \cdot \mathbb{I}\left [ v_i \,\, is \,\, positive \right ] \,\,\,\,\,\,(1) Lrepoff=Mpos1XiXiρI[viispositive](1)其中 I [ v i    i s    p o s i t i v e ] \mathbb{I}\left [ v_i \,\, is \,\, positive \right ] I[viispositive] 表示投票中心 v i v_i vi 是否围绕GT对象中心(半径为0.3内)。 M p o s M_{pos} Mpos 是正面投票中心的数量。 ρ ρ ρ 表示smooth-l1范数。 x i ∗ x_i^* xi 是从投票中心 v i v_i vi 到GT边界框6个面的GT偏移量。该模块还受同一GT对象的GT方向的监督。为了更好地预测方向角,我们采用了如[21]中所述的基于二元模型的角度预测方案,该方案预测每个方向bin的分类分数和每个bin中的回归偏移量,然后使用方向bin的交叉熵损失和回归偏移量的smooth-l1损失。我们将定向损失称为 L r e p − a n g L_{rep-ang} Lrepang。因此,本模块的最终学习目标是 L r e p = λ L r e p − o f f + L r e p − a n g L_{rep}=\lambda L_{rep-off} +L_{rep-ang} Lrep=λLrepoff+Lrepang这里 λ = 20 \lambda =20 λ=20,用于平衡两项。


3.3. 重访种子点

通过从投票中心 v i ,   i = 1 , . . , M v_i, \, i=1,..,M vi,i=1,..,M,以生成方式回溯代表点 R i R_i Ri, 我们可以通过类无关的方式大致获得可能对象的大小和位置,但它仍然需要实际种子点的相互一致性,以便可靠地生成对象建议,以便更准确地进行对象定位、边界框估计和对象类预测。具体而言,我们在一个固定半径(工作中δ=0.2)内重新访问一个回溯代表点 r i k ,   k = 1 , . . , K r_i^k, \, k=1,..,K rik,k=1,..,K 周围的种子点 { q j ∣ ∥ q j − r i k ∥ } ≤ δ \{q_j|\left \|q_j-r_i^k \right \|\} ≤δ {qjqjrik}δ,并使用一个类似PointNet的块[22],表示为 g ~ r i k \tilde{g}_{r_i^k} g~rik,聚合重新访问的种子特征。该过程与PV-RCNN[28]中提出的ROI网格池类似,但采用不同的网格和半径选择策略。

此后,对于每个投票中心(或被称为提案) v i v_i vi,来自每个代表点 r i k r_i^k rik 的聚合种子点特征集 g ~ r i k \tilde{g}_{r_i^k} g~rik可以进一步融合成单个特征 { g ~ r i k } k = 1 K \{\tilde{g}_{r_i^k}\}_{k=1}^K {g~rik}k=1K,该特征在投影到128维特征之前通过以预定义顺序连接来实现。每个方案的预定义顺序应一致,但不同的顺序策略不会影响性能。重新访问的种子特征总结为 g ~ v i k \tilde{g}_{v_i^k} g~vik,从而从相对精确的原始点云而不是预测的投票点捕获局部对象级特征。


3.4. 提案的优化和分类

回溯代表点集 R i R_i Ri 有助于重新访问种子点,并从投票中心 v i v_i vi 指示的潜在对象聚合局部几何线索。聚合的特征 g ~ v i \tilde{g}_{v_i} g~vi 可以与投票中心 v i v_i vi 的特征 f i f_i fi 连接,然后改进建议并用于更具区分性的对象类预测。为此,将融合特征 f ~ i = [ g ~ v i T , f i T ] T ∈ R 256 \tilde{f}_i=[\tilde{g}_{v_i}^T,f_i^T]^T \in \mathbb{R}^{256} f~i=[g~viT,fiT]TR256 输入共享MLP以预测残差 Δ x i \Delta x_i Δxi Δ θ i \Delta \theta_i Δθi ,结合前面的估计结果 x i x_i xi θ i \theta_i θi,产生最终输出集 { x i + Δ x i , θ i + Δ θ i } \{x_i+\Delta x_i, \theta_i+\Delta \theta_i\} {xi+Δxi,θi+Δθi} 。同时,我们预测每个融合特征的对象性得分和语义分类得分,类似于votenet[20]。注意最后的偏移 x i + Δ x i x_i+\Delta x_i xi+Δxi 可以重新定义为包围盒大小 s i = [ s i x , s i y , s i z ] T ∈ R 3 s_i=[s_i^x,s_i^y,s_i^z]^T \in \mathbb{R}^3 si=[six,siy,siz]TR3 的和对象中心 c i = [ c i x , c i y , c i z ] T ∈ R 3 c_i=[c_i^x,c_i^y,c_i^z]^T \in \mathbb{R}^3 ci=[cix,ciy,ciz]TR3 ,通过最小最大划分区域在规范坐标中的最终表示点集 R ~ i \tilde{R}_i R~i


3.5. 损失函数

总之,新提议的BRNet整个框架的损失函数定义如下: L = [ L v o t e − r e g ] + [ λ o b j − c l s L o b j − c l s ] + [ λ s e m − c l s L s e m − c l s ] + [ λ r e p L r e p ] + [ λ r e f i n e L r e f i n e ]      ( 3 ) L=[L_{vote-reg}]+[\lambda_{obj-cls}L_{obj-cls}]+[\lambda_{sem-cls}L_{sem-cls}]+[\lambda_{rep}L_{rep}]+[\lambda_{refine}L_{refine}] \,\,\,\,(3) L=[Lvotereg]+[λobjclsLobjcls]+[λsemclsLsemcls]+[λrepLrep]+[λrefineLrefine](3) 按照VoteNet[20]中使用的术语和标签分配策略,损失术语 L v o t e − r e g L_{vote-reg} Lvotereg L o b j − c l s L_{obj-cls} Lobjcls L s e m − c l s L_{sem-cls} Lsemcls 分别表示每点投票回归损失、对象性损失和语义分类损失。 L r e p L_{rep} Lrep的定义见第3.2。 L r e f i n e L_{refine} Lrefine用于监控从初始代表点集到最终代表点集的残差:从初始代表点集到最终代表点集的残差
L r e p − o f f = 1 M p o s ∑ ( λ ∥ X i + Δ X i − X i ∗ ∥ ρ + ∥ θ i + Δ θ i − θ i ∗ ∥ ρ ) ⋅ I [ v i    i s    p o s i t i v e ]        ( 1 ) L_{rep-off}=\frac{1}{M_{pos}}\sum (\lambda \left \| X_i+\Delta X_i-X_i^* \right \|_\rho+\left \| \theta_i+\Delta \theta_i-\theta_i^* \right \|_\rho) \cdot \mathbb{I}\left [ v_i \,\, is \,\, positive \right ] \,\,\,\,\,\,(1) Lrepoff=Mpos1(λXi+ΔXiXiρ+θi+Δθiθiρ)I[viispositive](1) ρ表示smooth-l1范数。 θ i ∗ \theta_i^* θi 是真实对象边界框的方向角。 L r e f i n e L_{refine} Lrefine 仅在正投票簇上计算。权重因子为 λ o b j − c l s = 1 , λ s e m − c l s = 0.1 , λ r e p = 1 , λ r e f i n e = 1 , λ = 20 , \lambda_{obj-cls}=1,\lambda_{sem-cls}=0.1,\lambda_{rep}=1,\lambda_{refine}=1,\lambda=20, λobjcls=1,λsemcls=0.1,λrep=1,λrefine=1,λ=20,

4. Experiments

4.1. 设置和实施细节

【数据集】

  • 我们在两个大型室内场景数据集上评估了我们的方法,即SUN RGB-D[31]和ScanNet V2[4]。SUN RGB-D由10355个单视图室内RGB-D图像组成,这些图像带有定向3D边界框和37个类别的语义标签。根据提供的摄影机参数,从深度贴图转换点云。捕获的点云包含严重的遮挡和孔洞,因此对三维目标检测具有挑战性。
    ScannetV2是一个3D网格数据集,大约1500个3D重建的室内场景。它包含18个对象类别,带有密集注释的轴对齐边界框。与SUN RGB-D数据集中的扫描相比,ScanNet V2数据集中的扫描更完整,对象更多。对于这两个数据集,我们使用与VoteNet[20]中相同的数据准备和培训/验证分割。

【输入和数据扩充】

  • 我们的方法的输入是从每个数据集的原始数据中随机下采样的点云,即SUN RGB-D数据集中的点云中的20000个点,以及ScanNet V2数据集中的3D网格中的40000个点。
  • 我们还包括每个点的高度特征。
  • 为了增加训练数据,我们将随机翻转、旋转和缩放添加到输入点云中,正如VoteNet[20]所采用的方法。

【网络训练细节】

  • 我们的网络使用Adam优化器进行端到端优化,批量大小为8。
  • SUN RGB-D[31]数据集的基本学习率为0.001
    ScanNet V2[4]数据集的基本学习率为0.005
  • 我们在两个数据集上对网络进行220个轮的训练。
  • 学习速率衰减采用余弦退火学习速率策略[18]。
  • 基于配备NVIDIA GeForce RTX 2080 Ti GPU卡的PyTorch平台,在ScanNet V2数据集上训练模型大约需要4小时,而在SUN RGB-D数据集上训练模型大约需要12小时。

【推理和评价】

  • 我们的方法将整个场景的点云作为输入并输出对象。
  • 提案由3D NMS模块进行后处理,IoU阈值为0.25。
  • 该评估遵循与[33]中相同的协议,使用平均精度,尤其是mAP@0.25和mAP@0.50.

4.2. 与当前最好的方法比较

我们将我们的方法与一系列参考方法进行比较,例如,早期的尝试,如COG[27]、SS[33]和3D-SIS[7]、2D驱动[11]和FPointNet[21]以及GSPN[40],以及最近基于点云的最先进方法,如VoteNet[20]及其继任者MLCVNet[36]、HGNet[2]和H3DNet[41]。

【定量结果】----【在性能方面】
表1. ScanNet V2验证集(左)和SUN RGB-D V1验证集(右)上的三维对象检测结果。评估指标是3D IOU阈值为0.25和0.50的平均精度。
注意:为了公平比较,我们报告了在1和4 PointNet++主干网(BB)设置下ScanNet V2数据集上H3DNet的结果。虽然我们仅报告SUN RGB-D数据集上具有4个PointNet++主干网(BB)的H3DNet的结果,因为工作[41]仅报告此设置下的结果。
在这里插入图片描述
表1总结了比较结果。我们的方法比所有的基线方法都有显著的性能改进。

  • ScanNet V2验证集提高了7.5%、SUN RGB-D验证集提高了4.7%mAP。注意mAP@0.50这是一个相当具有挑战性的指标,因为它基本上需要在边界框的每个维度上覆盖79%以上,这表明回溯代表点可以显著提高定位精度。
    值得注意,MLCVNet[36]在ScanNet数据集上运行良好,但在SUN RGB-D数据集上的性能相对较差;而HGNet[2]在SUN >- RGB-D数据集上运行良好,但在ScanNet数据集上的效果较差。
    尤其是在mAP@0.50上,我们的方法在两个数据集上都能很好地工作,这表明它对于不同的检测场景有较强的泛化能力。ScanNet包含相对完整的三维重建网格,而SUN RGB-D包含具有严重遮挡和孔洞的单视图RGB-D扫描。

【定量结果】 —【回溯的有效性】
表2. ScanNet V2验证集上的三维对象检测结果。评估指标是3D IOU阈值为0.50的平均精度。请注意,对于H3DNet,在[41]中仅报告了具有4个PointNet++主干的每个类别的结果。
在这里插入图片描述

  • H3DNet[41]集成了4个PointNet++[23]主干网,以在SUN RGB-D数据集上实现报告的结果,而我们的模型只需要一个主干网作为基本特征提取器。
  • 进一步验证了回溯具有代表性的点对可靠解析对象方案的有效性。
    如表2所示,我们的方法在ScanNet数据集中的18个类中的12个类的性能最好mAP@0.50. 虽然我们的方法仅使用一个PointNet++主干进行点云特征提取,但其性能优于H3DNet[41],有4个PointNet++主干。此外,它在尺寸或形状不规则的类别(如“橱柜”、“椅子”、“沙发”、“桌子”、“柜台”和“桌子”)上实现了更好的性能,因为它的回溯和重新访问过程消除了投票中的异常值,并使投票与局部对象表面之间能够更好地相互一致,而它的类不可知回归策略使得估计过程对形状变化具有鲁棒性。

【定性结果】
在图4和图6中,我们可视化了我们的方法和基线方法(如VoteNet[20]、MLCVNet[36]和H3DNet[41])的代表性3D对象检测结果。这些结果表明,我们的方法实现了更可靠的检测结果与更准确的边界框和方向。与基线方法相比,我们的方法还消除了错误的标注,并发现了更多丢失的对象。
在这里插入图片描述
在这里插入图片描述


4.3. 消融研究和讨论

  • 【VoteNet】
    VoteNet[20]及其变体[2,36,41]必须以类感知的方式估计对象提案的大小。这些基线方法通常输出对象大小,这些对象大小只能在类感知模板周围适度变化,并且在对象大小不正常时往往会错误地检测对象。

  • 【VoteNet+ CA-Reg】
    我们的方法以类无关方式的回归代表点,然后将其转换为提案的边界框。
    为了验证这一观察结果,我们实施了一种替代方法,该方法采用了与我们的方法类似的回归策略,但与VoteNet[20]共享相同的网络。我们将这种变体称为“VoteNet+CAReg”。如表3所示,该变体显著优于VoteNet。如图5所示,我们还观察到,这种替代方法更适用于类别内大小差异较大的类别(比如同样是桌子,大桌子和小桌子的大小差别很大),并且mAP@0.50在SUN RGB-D数据集上,与VoteNet相比,这种替代方法的收益与大小差异呈正相关。在这里插入图片描述
    图5. 类不可知边界框回归在类别内大小差异较大的类别上效果更好。对于每个类别,我们显示了替代方法“VoteNet+CA-Reg”相对于VoteNet[20]的相对准确度增益(以蓝色圆点表示)和类别内大小方差(以红色方块表示),其通过平均类别大小进行归一化。

    在这里插入图片描述
    表3. ScanNet V2和SUN RGB-D数据集上的定量消融实验(对照实验,类似于控制变量法)。“+CA Reg”表示带有类不可知边界框回归器的VoteNet[20],“+Seed-Pts”表示投票与其相应种子点融合的VoteNet。

  • 【VoteNet+ Seed-Pts】
    【回溯、重新访问和细化】代表点的回溯还应与后续的重访和细化模块相结合。如表3所示,我们发现这种完整的方法具有显著的性能提升(∼ 10%在ScanNet和 ∼ 6%在SUN RGB-D的,mAP@0.50)超过上述基线。回溯操作提供了对象范围的粗略估计,而重新访问和细化操作进一步使用邻域中可靠的种子特征更新建议特征,从而提供更好的机会产生更准确的检测结果。此外,如图7所示,通过我们的方法重新访问的种子点紧密地覆盖了对象的曲面,而投票检索到的相应种子点只能部分覆盖表面,并且还受到异常值的影响。

    此外,为了验证种子点是否有助于提高对象检测结果,我们考虑另一种变体(称为“VoteNet +Seed-Pts”),即VoteNet的投票特征与相应种子点特征融合。与VoteNet相比,该替代方法在两个数据集上都获得了非平凡的收益,尤其是在ScanNet V2上,在性能方面mAP@0.50.
    在这里插入图片描述
    图7。比较相应种子点和重访种子点。种子点标记为蓝色点,预测的边界框为绿色框。重新访问的种子点完全覆盖椅子,而相应的种子点受到部分覆盖和异常值的影响。

  • 【代表点的抽样策略】
    在表4中,我们比较了不同的抽样策略,以生成我们的代表点。“Ray”是指沿0和最大偏移之间的6个方向均匀采样。“Grid”是指基于预测偏移量在三维边界框内进行均匀采样。“#Pts”是采样点的数量。我们使用不同策略的方法通常具有可比性。
    在这里插入图片描述

  • 【模型大小和速度】
    如表5所示,与VoteNet相比,我们提出的方法是有效的,并且在两个数据集上进行评估时,比当前最先进的H3DNet[41]快3倍。其模型尺寸比VoteNet略有增加,比H3DNet小4倍左右。知道所提出的方法比这些参考方法(如第4.2节所述)具有显著的性能增益,其轻量级模型验证了所提出的回溯策略对于点云中的三维对象检测具有重要意义。
    在这里插入图片描述
    表5. 在具有相同配置的NVIDIA GeForce RTX 2080 Ti GPU卡上评估不同方法的型号大小和处理时间比较#BB表示用于特征提取的主干数。

  • 【主干的数量】
    我们的BRNet在使用4个主干后,效果也可以得到改进,在性能方面达到51.8%mAP@0.50在ScanNet[4]上,其表现优于H3DNet(4个主干网),具有显著的利润率(+3.7%)。

5. Conclusion

在这项工作中,我们引入了一种新的方法来改进基于投票的三维目标检测方法,该方法通过生成和类无关的方式回溯代表点。我们重新访问回溯代表点周围的种子点,并提取精细的对象表面特征,以生成高质量的对象建议。全面的消融研究表明了建议的回溯、重新访问和细化操作的重要性和有效性。定性和定量结果进一步证明,与VoteNet[20]相比,我们的方法显著优于现有方法,同时在模型大小和执行时间方面的增加可以忽略不计。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值