[论文翻译]RMS-FlowNet(ICRA 2022)

Javier.Lin_HUST

已于 2023-03-09 17:23:00 修改

阅读量321

点赞数 1

分类专栏：场景流 3D点云文章标签：深度学习人工智能计算机视觉神经网络 3d Powered by 金山文档

于 2023-03-09 17:19:24 首次发布

本文链接：https://blog.csdn.net/qq_40279050/article/details/129421881

版权

3D点云同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

RMS-FlowNet是一种基于端到端学习的架构，设计用于处理高密度点云的场景流估计。与依赖昂贵的最远点采样方法不同，RMS-FlowNet采用随机采样进行多尺度预测，提出了一种新的流嵌入设计，提高了预测的准确性和鲁棒性。该网络在FlyingThings3D数据集上表现优秀，并能有效处理超过250K点的密集点云，且在KITTI数据集上展现出良好的泛化能力。

摘要由CSDN通过智能技术生成

论文翻译：

RMS-FlowNet: Efficient and Robust Multi-Scale Scene Flow Estimation for Large-Scale Point Clouds

摘要：

所提出的RMS - FlowNet是一种新颖的基于端到端学习的架构，可以在高密度的点云上运行，用于准确和高效的场景流估计。对于分层场景流估计，现有的方法要么依赖于昂贵的最远点采样( Farthest Point Sampling，FPS )，要么依赖于基于结构的缩放，从而降低了处理大量点的能力。与这些方法不同，我们基于随机抽样( RS )的全监督架构进行多尺度场景流预测。为此，我们提出了一种新颖的流嵌入设计，结合RS可以预测更加鲁棒的场景流。我们的RMS - FlowNet具有较高的精度，提供了比最先进的方法更快的预测，并且在连续的250K以上的密集点云上有效地工作。我们的综合实验在建立的不同点云密度的FlyingThings3D数据集上验证了RMS - FlowNet的准确性，验证了我们的设计选择。此外，我们展示了我们的模型在不进行微调的情况下，对KITTI数据集的真实场景进行泛化的竞争能力。

1、引言

场景流估计是用于导航、规划任务和自动驾驶系统的关键计算机视觉任务。它关注于相对于观察者的三维运动场的估计，从而提供了环境中动态变化的表示。

目前流行的场景流方法大多采用单目图像[ 1 ]、[ 2 ]或立体图像来耦合几何重建与场景流估计[ 3 ]、[ 4 ]、[ 5 ]、[ 6 ]、[ 7 ]、[ 8 ]、[ 9 ]。然而，这些基于图像的解决方案的精度仍然受到图像质量和光照条件的制约。

与此相反，LiDAR传感器提供了几何形状(作为三维点云)的精确测量，并不断提高其密度(即传感器分辨率)。利用这种潜力对于从点云中精确计算场景流变得越来越重要。

为此，许多现有的方法[ 10 ]，[ 11 ]，[ 12 ]，[ 13 ]聚焦于3D领域，与基于图像的模态相比，提出了具有更好泛化性的高精度场景流。这类方法使用最远点采样( Farthest-Point Sampleling，FPS ) [ 14 ]、[ 15 ]、[ 16 ]、[ 17 ]来实现鲁棒的特征提取和精确的特征相似度计算。然而，FPS昂贵的计算量降低了其在稠密点云上高效运行的能力。

本文提出了RMS - FlowNet - -一种依赖随机采样( Random Sampleling，RS )进行场景流估计的分层点学习方法。因此，如图1所示，它更有效，具有更小的内存占用，并且在较低的运行时间下显示出与最先进的方法相当的结果。使用RS进行场景流估计带来了很大的挑战，与现有的基于点的场景流技术[ 11 ]，[ 12 ]，[ 13 ]结合起来是不可行的。这主要有两个原因，如图2所示。1 )。RS将反映输入点云的空间分布情况，如果远非均匀则存在问题。2 ) .连续点云之间的对应(刚性)区域会被RS不同采样，而FPS会产生更多相似模式。

为了克服这些问题，我们提出了一种新颖的Patch - to - Dilated - Patch流嵌入，它由3个嵌入层组成，具有横向连接(见图5)，以在匹配时纳入更大的感受野。总的来说，我们的全监督架构使用RS，由分层特征提取、优化的流嵌入和多个尺度上的场景流预测组成。我们的贡献总结如下：

1、我们提出了RMS - FlowNet - -一个端到端的场景流估计网络，该网络可以在稠密的点云上运行，并且具有较高的精度。

2、我们的网络使用随机采样以多尺度的方式进行分层场景流预测。

3、本文提出了一种新的适合与随机抽样相结合的流嵌入块(称为Patch - to - Dilated - Patch)。

4、穷举实验表明，在准确性、泛化性和运行时间方面，比最先进的方法都有很强的效果。

图1 .我们的RMS - FlowNet展示了一个精确的场景流( Acc3DR )，耗时更少。使用8192个点作为输入，在FlyingThings3D Subset ( FT3Ds ) [ 18 ]上进行精度测试，并在Geforce 1080Ti上对所有方法进行运行时间分析。

2、相关工作

基于学习的点云场景流：从点云中估计场景流是一个随着精确LiDAR的可用性而变得突出的子领域。在该领域中，PointFlowNet [ 19 ]将场景流学习为与目标检测耦合的刚性运动。Flow Net3D [ 10 ]在Point Net + + [ 15 ]的基础上提出了基于学习的架构，Meteor Net [ 20 ]通过聚合时空近邻点的特征来增加更多的方面。PointPWC-Net [ 11 ]是第一个基于点的方法，它在[ 16 ]的基础上分层地预测场景流，而不对其进行结构化或排序。尽管具有较高的精度，但由于FPS具有更多的内存消耗，所设计的架构计算开销较大。利用FPS，FlowStep3D [ 13 ]在最粗级别计算场景流，并通过门控循环单元[ 21 ]迭代更新场景流。然而，由于迭代更新，这种方法在计算上更加昂贵。与上述方法不同的是，我们的设计在所有模块中使用RS而不是昂贵的FPS，具有更高的效率和准确的结果。

另外，一些基于结构的学习方法被用于场景流估计。在此背景下，Ushani等[ 22 ]提出了一种通过构建占位网格和HPLFlow Net [ 23 ]使用百面体格点对点进行排序的实时方法。这类方法虽然效率较高，但精度有限。与基于结构的学习方法不同，我们的RMS - FlowNet依赖于基于点的学习，在较低的运行时间下表现出比上述方法更准确的结果。

其他一些方法[ 24 ]，[ 25 ]，[ 26 ]倾向于自监督类别，其精度低于我们完全监督的方式设计的RMS - FlowNet。

流嵌入：流嵌入是场景流计算的关键部分。它关注后续测量中相应特征的相关性和聚合，以编码空间位移。在此背景下，FlowNet3D [ 10 ]通过在低分辨率的连续点云上搜索64个最近邻，然后通过最大池化和一系列传播和细化块，提出了一个单块到点的嵌入块。HPLFlowNet [ 23 ]使用基于图像块分割相关性，通过格点表示三维点云。最近，PointPWC-Net [ 11 ]基于连续加权[ 16 ]从非结构化点云中聚合基于图像块分割特征，计算量大。HCRF-Flow [ 27 ]利用文献[ 11 ]中的金字塔结构，增加了一个高阶条件随机场( Conditional Random Fields，CRFs ) [ 28 ]作为精化模块，以探索点方向的平滑性和区域方向的刚性。

HALFlow [ 12 ]利用FPS提出了一种用于流嵌入的分层注意力机制。

最近，FLOT [ 29 ]在不使用任何采样技术的情况下，基于全局匹配[ 30 ]建立了一个利用最优传输的模型。受RAFT [ 31 ]构造所有点对相关场的启发，FlowStep3D [ 13 ]提出了基于点的和PV - RAFT [ 32 ]计算点体素相关场。

与所有这些方法不同的是，我们提出了一种新颖且高效的Patch - to - Dilated - Patch流嵌入块，它在不牺牲精度的情况下与RS一起可靠地工作。

图2 .随机采样( RS ) (右)相对于最远点采样( FPS ) (左)的挑战：两种技术都将连续两个场景PCt (蓝色)和PCt + 1 (绿色)分别采样为红色和粉色样本。

3、网络设计

我们的RMS - FlowNet从连续两次扫描的点云预测场景流。这些点云集合在时间戳t时为PCt = { pct i∈R3 } N i = 1，在时间戳t + 1时为PCt + 1 = { pct + 1 j∈R3 } M j = 1，( pct i , pct + 1 j)为三维笛卡尔位置，( N , M)为每个集合的大小。我们的网络对点集的随机排列具有不变性。

RMS - FlowNet寻求点云之间的相似性来估计运动，将其作为场景流向量SFt = { s f t i∈R3 } N i = 1，关于时间戳t的参考视图，即s f t i为pct i的运动向量。该模型旨在通过层次化特征提取、流嵌入、扭曲和场景流估计，对场景流进行多层次预测。以下各部分详细介绍了各个模块的组成。

图3 .我们的特征提取包括两个途径：由局部特征聚合( LFA )和最大池化的下采样( DS )组成的自顶向下的途径。自底向上路径由增采样( US )和转置卷积组成。

A 特征提取模块

特征提取模块由特征金字塔网络组成，分别从PCt和PCt + 1中提取特征集。我们的模块的构建涉及到自上而下，自下而上的路径，以及它们之间的横向跳跃连接，如图3所示。

自顶向下的路径从细到粗的分辨率计算4个尺度L = { l } 3 k = 0的特征集层次结构，其中l0为全输入分辨率，下采样云的分辨率固定为{ { l } 3 k = 1 | l1 = 2048，l2 = 728，l3 = 320 }。受RandLA - Net [ 33 ]关注语义分割的启发，我们结合局部特征聚合( LFA ) [ 33 ]提出了高效的RS策略。RS的计算复杂度为O ( 1 )，因此比FPS的O ( N2 )更有效。以前的工作[ 10 ]，[ 11 ]，[ 12 ]，[ 13 ]以昂贵的计算代价换取FPS的优势。

LFA在除最细尺度外的所有尺度lk上使用，从K -最近邻( K-NearestNeighbors，KNNs )搜索Kp = 17个近邻开始，并使用文献[ 33 ]中设计的两个注意力池化层来聚合特征。下采样( Down- Sampling，DS )用于将分辨率从lk级降低到lk + 1。我们随机采样到定义的分辨率，并对每个选择的采样进行最大池化，合并高分辨率中Kp = 17个最近邻，如图3所示。

在我们的模块中，自下而上的路径涉及L = { l } 3 k = 1层，不包括上采样( US )到全输入分辨率。对于从第lk + 1层到第lk层的升尺度，使用KNN将每个分辨率较高的点的Kq = 1近邻分配给分辨率较低的点，然后进行转置卷积。为了增加特征的质量，在每个层次中添加了侧向连接。该模块针对PCt k和PCt + 1 k分别预测两个特征集Ft k = { ft ki∈RCk } lk i = 1和Ft + 1 k = { f t + 1 k j∈RCk } lk j = 1。其中，Ck为特征维数，固定为{ { C } 3k = 1 | C1 = 128，C2 = 256，C3 = 512 }。完整的具有输出通道的特征提取模块如图3所示。

图4 .使用三个Flow - Embedding ( FE )模块(每个步骤包括三个步骤)、两个Warping - Layer ( WL )、四个场景流估计器和上采样( US )模块进行多尺度场景流预测。

B 流嵌入

跨两次扫描的流嵌入块是场景流估计的关键组成部分。对于第一节中提到的困难，使用RS需要一个特殊的流嵌入。为了克服RS的挑战，我们设计了一个不同于现有技术的流嵌入块。

在此背景下，我们建立了一个新颖且高效的概念，称为Patch - to - Dilated - Patch，用于聚合特征之间的关系。该嵌入块具有更大的感受野，不需要增加最近邻的个数。为了实现这一点，我们将如图5所示的3个连续步骤与横向连接相结合，并在每个尺度上应用整个块。

图5 .我们的新的Flow - Embedding ( FE )块由三个主要步骤组成：跨点云的最大嵌入和两个专注的嵌入层。它进一步使用了横向连接：特征级联( Ft k Concat。)和残差连接( Res . Conn . )。

首先，在每个尺度lk下，为PCt + 1 k内的每个点pct ki搜索Ko = 33个最近邻点：

第一次 Embedding ( Patch-to-Point )：将Ft + 1k的Ko个最近特征与每个点pct ki进行分组。然后，将这些分组的特征传递到两个多层感知器( Multi Layer Perceptron，MLP )中，并进行最大池化以进行特征聚合。每个MLP在尺度lk处产生Ck维的特征。

第二次 Embedding ( Point-to-Patch )：通过计算注意力分数并求和，将参考点云中Kp个最近的特征聚合到每个pct ki中，即对特征进行加权

第三次 Embedding (Point-to-Dilated-Patch)：对Kp近邻特征使用新的注意力分数重复上一步。该嵌入层导致感受野增大。

技术上，我们没有增加第3次嵌入的最近邻个数，而是通过重复聚合机制(见图5)从更大的区域聚合特征。总的来说，这三个步骤导致了我们新颖的Patch - to - Dilated - Patch嵌入。这样，我们能够用少量的最近邻获得更大的感受野，这在计算上更加高效。

基于注意力的聚合技术[ 34 ] [ 35 ]对每个嵌入特征f t ki学习注意力分数，然后使用softmax来抑制相关性最小的特征。然后，通过注意力分数对特征进行加权并求和。

此外，我们将特征Ft k串联，并添加残差连接( Res . Conn . )来提高我们的流嵌入( c.f.图5 )的质量。该设计在消融研究(第Ⅳ- E节)中得到验证。

C 多尺度场景流估计

如前所述，RMS - FlowNet受PointPWC - Net [ 11 ]的启发，在多个尺度上预测场景流，但我们考虑在与RS的结合上发生显著变化，以使我们的预测更加高效。我们在所有尺度上的场景流预测由两个Warping层( WLs )、三个Flow -嵌入( FEs )、三个场景流估计器和增采样( US )块组成，如图4所示。与PointPWC - Net [ 11 ]的设计相比，我们从每个类别中保存了一个元素，并建立了完整的设计注意力机制。因此，我们在不牺牲任何精度的情况下加速了我们的模型，如表I中的结果所示。多尺度估计从最粗的分辨率开始，通过在第一个FE之后使用场景流估计模块预测SFt 3。估计模块仅由三个MLP组成，分别具有64、32和3个输出通道。然后，我们使用Kq = 1的KNN将估计的场景流以及即将到来的特征从FE上采样到下一个更高的尺度。

我们的变形层利用尺度级别lk上采样的场景流SFt k将Ft + 1 k变形为Ft k。为此，我们将预测的场景流SFt k添加到PCt k中，以计算扭曲的" PCt + 1 k "，然后使用跨越PCt + 1 k和" PCt + 1 k "的KNN搜索将特征Ft + 1 k分组为Ft k。与PointPWCNet [ 11 ]中通过KNN搜索先将预测的场景流关联到PCt + 1 k，将PCt + 1 k变形为" PCt k "，再通过另一个KNN搜索进行特征分组的过程相比，这种变形更加简单高效。

D 损失函数

该模型是一个多尺度下的全监督模型，类似于PointPWC - Net [ 11 ]。若SFt k为预测的场景流，在lk水平上的真值为SFt GT，k，则目标可以写为：

‖‖.‖2表示{ { αk } 3 k = 0 | α0 = 0.02，α1 = 0.04，α2 = 0.08，α3 = 0.16 }的L2范数和每尺度的权重.

4、实验

我们运行了几个实验来评估我们的RMS - FlowNet场景流估计结果。首先，我们展示了RMS - FlowNet相对于现有技术的准确性和效率。其次，我们通过几个分析来验证我们的设计选择。

A 评价指标和数据集

为了公平比较，我们使用与[ 23 ]相同的评价指标。令SFt表示预测场景流，SFt GT表示真实场景流。评价指标在所有点上进行平均并计算如下：

我们在已建立的数据集FlyingThings3D Subset ( FT3Ds ) [ 18 ]上训练RMS - FlowNet，该数据集由训练集中可用的19640个带标签的场景流场景组成。考虑到场景中大部分的运动目标，我们排除了遮挡点和深度在35米以上的点[ 10 ]，[ 11 ]，[ 12 ]，[ 13 ]，[ 23 ]，[ 29 ]，[ 32 ]。

为了测试，我们在FT3Ds的测试分割中的所有3824个可用帧上评估了我们的模型。由于FT3Ds场景只是合成数据，我们在没有微调的情况下验证了我们的模型对KITTI [ 36 ]数据集真实场景的泛化能力。对于FT3Ds和KITTI两个数据集，评估的设置与相关工作完全相同。

由于现有的标注数据并没有提供点云信息(即3D笛卡尔位置)的直接表示，因此我们遵循HPLFlowNet [ 23 ] ( 1 )的预处理策略，该策略也是目前最先进的方法中常用的。

对于特定分辨率的训练和评估，预处理后的数据以随机顺序随机子采样到N个点。

B 实施和训练

我们使用默认参数的Adam优化器，分两个阶段训练800个历元的模型：为了加快模型的收敛速度，我们首先为每一帧训练120个具有固定点集的历元，并采用指数衰减的学习率，以0.001初始化，然后以每10个历元0.7的衰减率递减。对于接下来的680个历元，学习率固定为0.0001，每次迭代每帧随机采样8192个点。

表I我们的Rms - Flownet在Ft3Ds [ 18 ]和Kitti [ 36 ]上的定量结果与最先进方法的比较。我们的Rms - Flownet与其他方法一样在8192个点上进行训练和测试。目前最先进的方法的得分来自[ 10 ]，[ 11 ]，[ 12 ]，[ 13 ]，[ 23 ]，[ 29 ]，[ 32 ]。在所有Metrics中最好和次好的分数分别被鼓励和强调。在精视1080 TI上比较了运行时间和内存占用。为了便于比较，我们给出了每种方法的抽样策略。以前的工作要么应用基于格的缩放，要么避免采样，要么应用最远点采样( fps )。我们的Rms - Flownet使用随机采样( RS )，在较低的运行时间下显示了鲁棒和准确的结果。

图6 .来自KITTI的三个例子显示了我们的RMS - FlowNet的影响。每个示例的第一行将PCt可视化为蓝色，并将预测和真实场景流分别以红色和绿色添加到PCt中。第二行根据最后一行显示的彩色图显示每个场景的端点误差，单位为米。我们的RMS - FlowNet在广泛的观测场景中表现出低误差(深蓝色)，特别是对于运动物体(汽车)。

此外，我们在相关工作中加入了几何增强，即点围绕X、Y和Z轴小角度随机旋转，并加入随机平移偏移量来增加我们的模型在没有微调的情况下的泛化能力。

C 与SOTA进行比较

Evaluation on FT3Ds:为了证明我们的模型的准确性、泛化性和效率，我们与表1中的最新方法进行了比较。我们的RMS - FlowNet在所有评价指标上都优于[ 10 ]、[ 11 ]、[ 23 ]的方法，并且与[ 12 ]、[ 13 ]、[ 29 ]、[ 32 ]的结果相当，运行时间和内存占用都很低。与使用FPS的并发方法[ 12 ]，[ 13 ]相比，我们的RMS - FlowNet在RS上表现出相当的准确性。

Generalization to KITTI:我们在没有微调的情况下对KITTI数据集[ 36 ]进行泛化能力测试。表1中报告的分数提供了真实场景鲁棒性的证据。我们的RMS - FlowNet优于[ 10 ]，[ 11 ]，[ 12 ]，[ 23 ]，[ 29 ]的所有方法，并且与[ 13 ]，[ 32 ]的结果相当。

在视觉上，KITTI上的三个例子如图6所示，其中移动的汽车和周围的场景流与地面真值相比偏差很小。

Efficiency:为了验证RMS - FlowNet的效率，我们使用Geforce1080 Ti在干净的环境下运行了最先进方法的官方实现[ 10 ]，[ 11 ]，[ 13 ]，[ 23 ]，[ 29 ]，[ 32 ]，并在测试集上测量了毫秒级的平均推理时间。如表1所示，对于8192个输入点，RMS - FlowNet在运行时间方面比其他方法更高效，在内存使用方面与文献[ 13 ]接近。因此，我们的方法比[ 10 ]，[ 11 ]，[ 23 ]快了1.5倍，比FLOT [ 29 ]快了4.5倍，比[ 13 ]，[ 32 ]快了18倍。

由于HALFlow [ 12 ]的开源代码不可用，并且在其原始论文中缺少效率分析，我们无法分析效率，但我们假设由于使用FPS，它的效率比我们低

图7 .对不同数量的点与最先进的方法进行精度对比分析。

图8 .与现有方法相比，对不同数量的点进行运行时分析。

D 不同密度的点

我们在不同的点密度上对重要竞争对手[ 11 ]，[ 13 ]，[ 23 ]，[ 29 ]，[ 32 ]进行了评估，如图7所示。对FT3Ds上的Acc3DR和推理时间进行了大范围的测量，密度N = { 2048⋅2i } 6i = 0，最后使用了所有可用的非遮挡点，平均对应于∆225K点(见图7和图8)。对于FLOT [ 29 ]、PVRAFT [ 32 ]、Point PW C-Net [ 11 ]和HPLFlow Net [ 23 ]的竞争方法，由于超出了我们测试范围的Geforce 1080 Ti的内存限制，最大可能密度分别限制在8192、8192、32768和65536。由于场景较为密集的每一帧的运行时( > 2.5秒)较差，我们在测试中将Flow Step3D [ 13 ]的点数限制为16384。

相比之下，RMS - FlowNet可以高效地运行在250K以上的点上，具有较高的精度和较低的运行时间。为了使密度> 32K时的精度保持稳定，我们将降采样特征( c.f.第三节- A)的分辨率提高到{ { l } 3 k = 1 | l1 = 8192，l2 = 2048，l3 = 512 }，而不需要进一步训练或微调。因此，在较宽的密度范围(见图7)内，精度保持稳定。即使有了这种变化，对于增加的输入密度(见图8)，我们的RMS - FlowNet比以前的工作更有效和更快。与其他方法相比，RMS - FlowNet的设计允许在更高的最大密度上运行，因为它们的内存占用和时间消耗。然而，由于KNN搜索，RMS - FlowNet的运行时间仍然随着输入密度的增加而超线性增长。

表II针对我们的Rms - Flownet的流嵌入的各种设计变体的消融研究。我们在Ft3Ds的测试分裂[ 18 ]中的8192个点上测试所有Variants。

E 消融实验

最后，我们通过移除FE的组件来验证我们对FT3Ds [ 18 ]上FE的设计选择，并比较表II中的变体。这种比较中的模型只针对第一阶段进行训练，如第IV - B节所述，没有进行增强。在使用RS时，每个部分都清楚地增加了对整体精度的贡献。FlowNet3D [ 10 ]中使用的第一种最大池化嵌入方法无法解决场景流估计中RS策略的挑战。完整的设计- -三个具有横向连接的嵌入层- -导致了最好的结果。

5、结论

在本文中，我们提出了RMS - FlowNet - -一个用于大规模点云中多尺度场景流估计的高效全监督网络。在特征提取过程中使用随机采样( Random Sample，RS )，我们可以提高运行时间和内存占用，以便在不匹配的最大密度下高效处理点云。新型流嵌入模块(称为Patch - to - Dilated - Patch)解决了使用RS进行场景流估计时的突出挑战。因此，RMS - FlowNet在FT3D上达到了最先进的精度，并在广泛的输入密度范围内以及KITTI的真实场景中得到了很好的推广。