[论文简述+翻译]FlowNet3D: Learning Scene Flow in 3D Point Clouds（2019 CVPR）

最新推荐文章于 2025-03-05 18:15:01 发布

Javier.Lin_HUST

最新推荐文章于 2025-03-05 18:15:01 发布

阅读量1.9k

点赞数 3

分类专栏：场景流 3D点云文章标签： 3d 人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_40279050/article/details/128938377

版权

3D点云同时被 2 个专栏收录

20 篇文章

订阅专栏

场景流

19 篇文章

订阅专栏

FlowNet3D是一种深度神经网络，它能从3D点云中端到端地学习场景流。该网络引入了流嵌入层和setupconv层，以关联点云和传播特征。在合成数据集FlyingThings3D和真实LiDAR(KITTI)数据上，FlowNet3D展示了优越的性能，超过传统方法，且能从合成数据泛化到真实世界场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文简述：

第一作者：Xingyu Liu

发表年份：2019

发表期刊：IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

探索动机：以往的方法大多以立体图像和RGB - D图像作为输入，很少尝试直接从点云中估计场景流。

工作目标：提出一种新的深度神经网络以端到端的方式从点云中学习场景流。

核心思想：

提出了一种新颖的架构FlowNet3D，从一对连续的点云端到端估计场景流。

在点云上引入了两个新的学习层：一个学习关联两个点云的流嵌入层，以及一个学习将特征从一组点传播到另一组点的set upconv层。

展示了如何将FlowNet3D架构应用于KITTI的真实LiDAR扫描，并在3D场景流估计中取得了比传统方法大幅提升的结果。

实现方法：FlowNet3D有3个关键模块：( 1 )点特征学习；( 2 )点混合；( 3 )流细化。在这些模块下面是三个关键的深度点云处理层：set conv层、flow embedded层和set upconv层(图2 )。1、set conv层其实就是PointNet++中的set abstraction.虽然该层是为3D分类和分割而设计的，但是我们发现其特征学习层对于场景流任务也很强大。2、flow embedded层学习聚合点的(几何)特征相似性和空间关系，以产生编码点运动的嵌入。该层的底层操作与set conv层类似。然而，它们的物理意义却截然不同。计算得到的流嵌入通过更多的几个set conv层进一步混合，从而获得空间平滑。3、该层学习以明智的方式传播和细化embeddings。

实验结论：在本文中，我们提出了一种新颖的深度神经网络架构，直接从三维点云估计场景流，这可以说是第一个用点云端到端解决问题的成功工作。为了支持FlowNet3D，我们提出了一个新的流嵌入层，它学习聚合点的几何相似性和空间关系来进行运动编码，以及一个新的可训练集特征传播的setconv层。在具有挑战性的合成数据集和真实的Lidar点云上，我们验证了我们的网络设计，并展示了其在各种基线和先验技术上的竞争性或更好的结果。我们还演示了使用从我们的模型估计的场景流的两个示例应用。

论文下载：https://openaccess.thecvf.com/content_CVPR_2019/html/Liu_FlowNet3D_Learning_Scene_Flow_in_3D_Point_Clouds_CVPR_2019_paper.html

代码下载：https://github.com/xingyul/flownet3d

论文翻译：

FlowNet3D: Learning Scene Flow in 3D Point Clouds

摘要：

在机器人和人机交互的许多应用中，可以从理解动态环境中点的三维运动中获益，这被广泛地称为场景流。以往的方法大多以立体图像和RGB - D图像作为输入，很少尝试直接从点云中估计场景流。在这项工作中，我们提出了一种新的深度神经网络FlowNet3D，它以端到端的方式从点云中学习场景流。我们的网络同时学习点云的深层层次特征和表示点运动的流嵌入，并由两个新提出的点集学习层支持。我们在来自FlyingThings3D的挑战性合成数据和来自KITTI的真实Lidar扫描数据上对网络进行评估。我们的网络只在合成数据上训练，成功地推广到真实扫描，超过了各种基线，并向现有技术展示了有竞争力的结果。我们还展示了场景流输出(扫描配准和运动分割)的两个应用，以展示其潜在的广泛用例。

1、引言

场景流是场景中点的三维运动场[ 27 ]。其投影到像平面成为二维光流。它是一种对动态环境的低层次理解，不需要假设场景的结构或运动知识。利用这种灵活性，场景流可以服务于许多更高层次的应用。例如，为物体分割、动作识别、相机位姿估计提供运动线索，甚至作为其他3D视觉问题的正则化项。

然而，对于这个3D流估计问题，以往的工作大多依赖于2D表示。他们将光流估计方法扩展到立体或RGB - D图像，通常将光流和视差图分开估计[ 33、28、16]，而不是直接针对三维场景流进行优化。这些方法无法适用于仅以点云为输入的情况。

最近，机器人领域的研究人员开始直接在3D点云上研究场景流估计（例如：雷达）。但这些工作并没有从深度学习中获益，因为它们基于手工制作的特征构建了多级系统，使用了逻辑回归等简单的模型。其中往往包含许多假设，如假设场景刚性或存在点对应关系，这使得这些系统难以适应深度网络。另一方面，在学习领域，Qi等人[ 19、20]最近提出了直接使用点云进行三维分类和分割的新型深度架构。然而，他们的工作主要集中在处理静态点云。

在这项工作中，我们通过提出一个名为FlowNet3D的深度神经网络来连接上述两个研究前沿，该网络端到端地学习三维点云中的场景流。如图1所示，给定连续两帧(点云1和点云2)的输入点云，我们的网络为第一帧中的每个点估计一个平移流矢量，以表示其在两帧之间的运动。该网络基于文献[ 19 ]的构建模块，能够同时学习点云的深层层次特征和表示其运动的流嵌入。虽然两个采样点云之间没有对应关系，但我们的网络通过我们新提出的流嵌入层，从点的空间位置和几何相似性中学习关联点。每个输出的embedding隐式地表示一个点的三维运动。从embedding，网络进一步向上采样，并通过另一个新的set upconv层以明智的方式细化它们。与直接通过3D插值上采样特征相比，set upconv根据它们的空间和特征关系来学习上采样点。

我们广泛研究了模型中的设计选择，并通过一个大规模的合成数据集( FlyingThings3D )验证了我们新提出的点集学习层的有效性。我们还在KITTI基准的真实LiDAR扫描数据上评估了我们的模型，与非深度学习方法的基线相比，我们的模型表现出了显著更强的性能，并且与现有技术的竞争结果相比。更值得注意的是，我们的网络即使在合成数据上训练，也能够从真实扫描中稳健地估计点云中的场景流，显示了其强大的泛化能力。通过对少量真实数据的微调，该网络可以获得更好的性能。

本文的主要贡献如下：

•我们提出了一种新颖的架构FlowNet3D，从一对连续的点云端到端估计场景流。

•我们在点云上引入了两个新的学习层：一个学习关联两个点云的流嵌入层，以及一个学习将特征从一组点传播到另一组点的set upconv层。

•我们展示了我们如何将提出的FlowNet3D架构应用于KITTI的真实LiDAR扫描，并在3D场景流估计中取得了比传统方法大幅提升的结果。

2、相关工作

基于RGB或者RGN-D的场景流。Vedula等[ 27 ]首次引入场景流的概念，作为世界上运动矢量的三维场。他们假设了立体对应的知识，并结合光流和深度图的一阶近似来估计场景流。自从这项开创性的工作以来，许多人已经尝试从立体图像[ 12、18、34、26、5、33、28、29、1、30、16]中联合估计结构和运动，主要是在变分框架下，通过正则化来平滑运动和结构[ 12、1、26]，或者假设局部结构[ 29、16、30]的刚性。

随着近年来商品深度传感器的出现，通过将变分2D流算法推广到3D [ 10、14]，并利用深度通道[ 21,11,23]提供的更多几何线索，从单目RGB - D图像中估计场景流已经变得可行[ 9 ]。我们的工作重点是直接从点云中学习场景流，而不依赖于RGB图像或对刚性和相机运动的假设。

基于点云的场景流。最近，Dewan等人[ 7 ]提出在3D LiDAR扫描中估计稠密刚性运动场。他们将问题建模为一个因子图的能量最小化问题，并使用手工设计的SHOT [ 24 ]描述符进行对应搜索。后来，Ushani等人[ 25 ]提出了一种不同的流水线：他们训练一个逻辑分类器来判断两列占用网格是否对应，并制定了一个EM算法来估计局部刚性和非变形的流。与以前的工作相比，我们的方法是一个端到端的解决方案，具有深刻的学习特征，不依赖于硬对应或刚性假设。

与我们的工作一致，[ 2 ]将场景流估计为单个物体或背景的刚性运动，并与网络一起学习回归自身运动和检测3D物体。文献[ 22 ]联合估计物体的刚体运动并基于其运动进行分割。最近的一项工作[ 32 ]也探索了在点云上使用新提出的学习网络来估计场景流，但对其具体实现细节的介绍很少。

相关的基于深度学习的方法。Flow Net [ 8 ]和Flow Net 2.0 [ 13 ]是两项开创性的工作，它们提出使用卷积神经网络以端到端的方式学习光流，表现出了高效的竞争性能。文献[ 15 ]将FlowNet扩展到同时估计视差和光流。文献[ 32 ]提出了点云场景流的参数化连续卷积。我们的工作受到了那些基于深度学习的光流预测尝试的成功的启发，可以被看作是它们的3D对应。然而，点云(没有像图像中那样规则的网格)中的不规则结构为新型建筑的设计提出了新的挑战和机遇，这也是本文工作的重点。

3、问题定义

我们设计了深度神经网络，从连续帧的点云中估计三维运动流。网络的输入是从动态三维场景中采样的两组点，在两个连续的时间帧： $\text{[math]}$ (点云1 )和 $\text{[math]}$ (点云2 )，其中 $\text{[math]}$ 是单个点的 $\text{[math]}$ 坐标。注意到由于物体运动和视点变化，两片点云不一定具有相同的点数或点与点之间有任何对应关系。也可以包含更多的点特征，如颜色和激光雷达强度。为了简单起见，我们只关注 $\text{[math]}$ 。

现在考虑采样点 $\text{[math]}$ 下的物理点移动到第二帧的位置 $\text{[math]}$ ，则该点的平移运动矢量为 $\text{[math]}$ 。我们的目标是，给定P和Q，恢复第1帧中每个采样点的场景流： $\text{[math]}$

图2：点云处理的三个可训练层。左：集合conv层学习深层点云特征。中间：流嵌入层学习两片点云之间的几何关系来推断运动。右：设置Conv层，以可学习的方式对点特征进行上采样和传播。

4、FlowNet3D架构

在本节中，我们介绍了一种端到端的点云场景流估计网络FlowNet3D (图3 )。该模型有3个关键模块：( 1 )点特征学习；( 2 )点混合；( 3 )流细化。在这些模块下面是三个关键的深度点云处理层：set conv层、flow embedded层和set upconv层(图2 )。在接下来的小节中，我们详细描述了每个模块及其关联层，并在4.4节中指定了最终的FlowNet3D架构。

图3：Flownet3D架构。给定两帧点云，网络学习预测场景流作为第一帧每个点的平移运动向量。图2为各层及剖面示意图。4.4节为网络架构细节。

4.1 分层点云特征学习

由于点云是不规则无秩序的点集，传统的卷积并不适合。因此，我们遵循最近提出的Point Net + +架构[ 20 ]，这是一个学习分层特征的平移不变网络。虽然set conv层是为3D分类和分割而设计的，但是我们发现其特征学习层对于场景流任务也很强大。

如图2 (左)所示，一个set conv层取n个点的点云，每个点 $\text{[math]}$ ，其XYZ坐标为 $\text{[math]}$ ，特征为 $\text{[math]}$ ，输出 $\text{[math]}$ 个点的子采样点云，其中每个点 $\text{[math]}$ ，其XYZ坐标为 $\text{[math]}$ ，更新后的点特征为 $\text{[math]}$ 。

具体来说，如文献[ 20 ]中所述，该层首先从输入点中采样 $\text{[math]}$ 个区域，最远点采样(区域中心为 $\text{[math]}$ )，然后对于每个区域(由半径r指定的半径邻域定义)，采用如下对称函数提取其局部特征

式中： $\text{[math]}$ 为非线性函数(实现为一个多层感知器)，输入为concat $\text{[math]}$ 和 $\text{[math]}$ ，MAX为逐元素最大池化。

4.2 用流嵌入层进行点混合

为了混合两个点云，我们依赖于一个新的流嵌入层(图2中)。为了启发我们的设计，想象一个点在t帧，如果我们知道它在t + 1帧的对应点，那么它的场景流就是它们的相对位移。然而在实际数据中，由于视点偏移和遮挡等原因，两帧图像中的点云之间往往没有对应关系。由于我们可以在t + 1帧中找到多个软对应点并做出"加权"决策，因此仍然可以估计场景流。

我们的流嵌入层学习聚合点的(几何)特征相似性和空间关系，以产生编码点运动的嵌入。相对于取单个点云的set conv层，流嵌入层取一对点云： $\text{[math]}$ 和 $\text{[math]}$ ，其中每个点的XYZ坐标为 $\text{[math]}$ ，特征向量 $\text{[math]}$ 。该层通过学习得到第一帧中的每个点的流嵌入： $\text{[math]}$ ，其中 $\text{[math]}$ 。我们还将第一帧中点的原始坐标 $\text{[math]}$ 传递给输出，因此最后一层输出为 $\text{[math]}$ 。

计算 $\text{[math]}$ 的底层操作与set conv层类似。然而，它们的物理意义却截然不同。对于第一帧中给定的点 $\text{[math]}$ ，该层首先在其半径邻域(突出的蓝色点)中找到来自第二帧的所有点 $\text{[math]}$ 。如果一个特殊的点 $\text{[math]}$ 对应于 $\text{[math]}$ ，则 $\text{[math]}$ 的流简单为 $\text{[math]}$ .由于这种情况很少存在，我们使用一个神经层来聚合来自所有相邻 $\text{[math]}$ 的流投票

其中，h是一个非线性函数，具有与set conv层相似的可训练参数，MAX是逐元素的最大池化。与式( 1 )相比，我们向h输入两个点特征，希望h学习计算"权重"来聚合所有潜在的流向量 $\text{[math]}$ 。

另一种方案是通过计算特征距离 $\text{[math]}$ 来显式指定我们如何关联点特征。然后将特征距离反馈给非线性函数h (而不是直接输入 $\text{[math]}$ 和 $\text{[math]}$ )。在消融研究中，我们证明了我们在公式（2）学习比这种替代方法更有效的流嵌入。

计算得到的流嵌入通过更多的几个set conv层进一步混合，从而获得空间平滑。这也有助于解决需要大感受野进行流估计的模糊情况(例如,平移台表面上的点)。

4.3 用Set Upconv层进行流细化

在该模块中，我们将与中间点相关的流嵌入上采样到原始点，并在最后一层预测所有原始点的流。上采样步骤通过一个可学习的新层实现- -set upconv层，该层学习以明智的方式传播和细化嵌入。

图2 (右)说明了建立Conv层的过程。该层的输入为源点 $\text{[math]}$ 和一组目标点坐标 $\text{[math]}$ ，它们是我们想要传播源点特征的位置。对于每个目标位置 $\text{[math]}$ ，该层通过聚合其邻近源点的特征输出其点特征 $\text{[math]}$ 在我们的案例中传播流嵌入)。

有趣的是，正如在图像的2D卷积中，upconv2D可以通过conv2D实现一样，我们的set conv也可以通过与式( 1 )定义的set conv层直接实现。但采用了不同的局部区域采样策略。与在set conv层中使用最远点采样寻找 $\text{[math]}$ 不同，我们通过目标点 $\text{[math]}$ 计算指定位置上的特征。

值得注意的是，尽管上采样时 $\text{[math]}$ ，但是set upconv层比较灵活可以使用任意数量的目标位置，这些位置不必对应真实的点。它是一个灵活的、可训练的层来传播/总结从一个点云到另一个点云的特征。

相比于上采样点特征的另一种方式- -使用3D插值 $\text{[math]}$ 以w作为归一化的反距离权重函数[ 20 ] )，我们的网络学习如何对附近点的特征进行加权，就像流嵌入层如何对位移进行加权一样。我们发现，新set upconv层在实证结果中表现出显著优势。

4.4 网络架构

最终的FlowNet3D架构由4个set conv层、1个流嵌入层和4个set upconv层(对应于设置的4个conv层)以及输出R3预测场景流的最终线性流回归层组成。对于set upconv层，我们也有跳跃连接来串联set conv输出特征。每个可学习层对函数h采用多层感知器，由其线性层宽度参数化少数几个Linear - BatchNorm - ReLU层。具体铺层参数如表1所示。

表1：FlowNet3D架构规范。注意最后一层是线性的，因此没有ReLU和批归一化

5、使用Flow Net3D进行训练和推理

我们采用有监督的方法训练带有真实场景流监督的Flow Net3D模型。虽然这种密集的监督在真实数据中很难获得，但我们挖掘了大规模的合成数据集( FlyingThings3D )，并表明我们在合成数据上训练的模型与真实的激光雷达扫描很好地概括了(第6.2节)。

循环一致性正则化的训练损失。我们使用平滑L1损失( Huber损失函数)进行场景流监督，并使用循环一致性正则化。给定t帧的点云 $\text{[math]}$ 和t + 1帧的点云 $\text{[math]}$ ，网络预测场景流为 $\text{[math]}$ ，其中F为参数为Θ的FlowNet3D模型。当真实场景流 $\text{[math]}$ 时，我们的损失定义为式子( 3 ) .其中， $\text{[math]}$ 为循环一致性项，使得从偏移后的点云 $\text{[math]}$ 到原始点云P的后向流 $\text{[math]}$ 接近正向流的反向

用随机重采样进行推断。点云回归问题(例如场景流)的一个特殊挑战是下采样在预测中引入噪声。一种简单但有效的降噪方法是对点云进行随机重采样，进行多次推断，并对每个点的预测流矢量进行平均。在实验中，我们会看到这个重采样和平均步骤带来了轻微的性能增益。

6、实验

在本节中，我们首先在6.1节中用大规模合成数据集( FlyingThings3D )评估和验证我们的设计选择，然后在6.2节我们展示了在合成数据上训练的模型如何成功地推广到KITTI的真实激光雷达扫描。最后，在6.3节我们展示了场景流在三维形状配准和运动分割上的两个应用。

表2：FlyingThings3D数据集上的流量估计结果。度量指标为场景流的端点误差( End-point-error，EPE ) Acc ( < 0.05或5 % , < 0.1或10 %)。

6.1 FlyingThings3D上的评估与设计验证

由于在真实数据上标注或获取稠密场景流非常昂贵，所以据我们所知，不存在大规模的真实场景的场景流标注数据。因此，我们转向一个合成的、但具有挑战性的大规模数据集FlyingThings3D来训练和评估我们的模型，并验证我们的设计选择。

FlyingThings3D [15].该数据集由从ShapeNet [ 6 ]中采样的具有多个随机移动对象的场景渲染的立体图像和RGB - D图像组成。总共有大约32k张带有真实视差和光流图的立体图像。我们随机抽取其中20，000个作为训练集，2，000个作为测试集。我们不使用RGB图像，而是通过弹出视差图到三维点云和光流到场景流的方式对数据进行预处理。我们将公布我们准备的数据。

评价指标。我们使用3D端点误差( EPE )和流估计精度( ACC )作为度量。三维EPE度量了估计的流矢量与真实流矢量之间的平均L2距离。流估计精度衡量的是估计的流向量在所有点中低于指定的端点误差的部分。我们报告了两种不同阈值的ACC指标。

结果。表2报告了测试集上的流量评估结果，将Flow Net3D与各种基线进行比较。其中，FlowNet - C是一个改编自[ 13 ]的CNN模型，它学习从一对深度图像或RGB - D图像(深度图像转换为XY Z坐标图作为输入)中预测场景流，而不是像[ 13 ] (补充更多建筑细部)中那样从RGB图像中预测光流。然而，我们看到，这种基于图像的方法很难预测准确的场景流，这可能是因为二维投影视图中存在强烈的遮挡和混乱。我们同时对比了为整个场景找到单一的刚体变换的ICP（迭代最近点）基线。该基线匹配场景中的大对象，但无法适应输入中的多个独立运动对象。令人惊讶的是，这个ICP基线仍然能够得到一些合理的数值(甚至优于2D FlowNet - C)。

图4：场景流网络的三种元架构。FlowNet3D (图3 )属于深混合。

我们还给出了三个直接消耗点云(作为图4中三个元体系结构的实例)的基线深度模型的结果。它们在早期、晚期或中期混合两帧的点云。EMbaseline在输入时将两个点云合并为一个集合，并通过将每个点附加一个长度为2的one-hot向量进行区分。LM - baseline首先为每一帧的点云计算一个全局特征，然后将全局特征进行拼接作为混合点的方式。DM - baseline与我们的FlowNet3D (它们都属于DM元结构)在结构上相似，但使用了一种更幼稚的方式来混合两个中间点云(通过拼接所有特征和点位移,并用全连接层处理)，并使用三维插值代替设置conv层来传播点特征。补充部分提供了更多细节。

与这些基线模型相比，我们的FlowNet3D获得了更低的EPE和更高的准确率。

表3：FlyingThings3D数据集上的消融研究。我们研究了距离函数、h中池化的类型、流动细化中使用的层数以及重采样和循环一致性正则化的影响。

消融实验。表3展示了FlowNet3D的几种设计选择的效果。比较前两行，我们发现最大池化比平均池化有显著的优势，这可能是因为最大池化在挑选"对应"点时更有选择性，并且受噪声的影响较小。从第2行到第4行，我们将我们的设计与使用余弦距离的特征距离函数(正如在Sec . 4.2 )及其未归一化版本(点积)的备选方案进行比较。我们的方法得到了最好的性能（与使用余弦函数相比，误差减少了11.6%）。观察第4行和第5行，我们发现我们新提出的upconv层显著降低了20 %的流误差。最后，在推理(第二最后一行)和循环一致性正则化训练(其中λ = 0.3)时，我们发现了多次重采样( 10次)进一步提高了性能。最后一行表示FlowNet3D的最终设置。

6.2 泛化到在KITTI上的真实雷达扫描数据

在本节中，我们展示了在合成数据集上训练的模型可以直接应用于从KITTI的真实激光雷达扫描中检测点云中的场景流。

表4：KITTI场景流数据集( w / o地面点)上的场景流估计。度量指标为EPE、异常值比率( > 0.3 m或5 %)。KITTI排名是方法在KITTI场景流排行榜上的排名。我们的FlowNet3D模型在合成的FlyingThings3D数据集上进行训练。

数据与设置。我们使用KITTI场景流数据集[ 17、16]，该数据集用于评估基于RGB立体的方法。为了评估基于点云的方法，我们使用其地面真值标签和跟踪与帧相关的原始点云。由于没有为测试集提供点云数据（以及部分训练数据），我们对来自训练集的200帧中的所有150帧进行了评估。此外，为了与之前的方法[ 7 ]保持比较公平，我们首先在去除地面(详见补充说明)的Lidar扫描上评估了我们的模型。然后我们给出了另外一组包含表5中地面点的全Lidar扫描结果

图5：KITTI点云上的场景流。我们在四个KITTI扫描上展示了FlowNet3D预测的场景流。对激光雷达点进行颜色标记，标记点为第1帧、第2帧或平移点(点云1 +场景流)。

表5：KITTI场景流数据集( w /地面点)上的场景流估计。前100帧用于微调我们的模型。所有方法在剩余的50帧上进行评估。

基线。LDOF + depth [ 4 ]使用变分模型求解光流，并将深度作为额外的特征维度。OSF [ 16 ]在超像素上使用离散-连续CRF，假设物体刚性运动。PRSM [ 30 ]利用刚性运动片段上的能量最小化，联合估计包括刚性运动在内的多个属性。由于三种基于RGB - D图像的方法都没有直接输出场景流(但光流和视差分别)。所以我们要么使用估计的视差（第四排）或者像素深度变化（第三排第一个）去计算深度方向的流动位移。CP ( global )估计整个场景的单个刚性运动。ICP ( Segmentation )是一种更强的基线，它首先计算地面移除后的Lidar点上的连通分支，然后估计每段点云的刚体运动。

结果。在表4中，我们比较了FlowNet3D与针对二维光流优化的先验技术以及两种点云ICP基线。与基于二维成像的方法[ 4、16、30]相比，我们的方法在场景流估计上表现出极大的优势- -实现了显著更低的3D端点误差(与文献相比,相对误差减少了63 %)和3D离群率。我们的方法也优于更依赖于全局场景刚性或分割正确性的两个ICP基线。此外，我们得出结论，我们的模型虽然只在合成数据上训练，但很好地推广到真实的Lidar点云。

图5可视化了我们的场景流预测。我们可以看到，我们的模型能够精确的估计出动态物体的流。比如正在运动的车辆和行人。

在表5中我们报告了使用地面点云进行全Lidar扫描的结果。我们还将数据拆分使用100帧在Lidar扫描上微调我们的FlowNet3D模型，并使用剩余的50帧进行测试。我们看到包括地面点对所有方法都有负面影响。但是我们的方法仍然优于ICP基线。通过采用分割地面的ICP估计流量和其余点的净估计流量( FlowNet3D + ICP )，我们的方法也可以打败EPE中的现有技术( PRSM )。PRSM导致了离群率，因为对地面的流量估计与使用图像输入的方法更友好。通过在Lidar扫描上微调FlowNet3D，我们的模型甚至取得了更好的效果(最后一列)。

图6：两张椅子扫描的部分扫描配准。目标是将点云1 (红色)配准到点云2 (绿色)。变换后的点云1呈蓝色。我们展示了一个ICP无法对齐椅子而我们的密集场景流接地方法成功的案例。

表6：点云翘曲误差。

6.3 应用

虽然场景流本身是理解运动的低级信号，但它可以为许多更高级的应用提供有用的线索，如(关于演示和数据集的更多细节包含在补充中)所示。

6.3.1 3D扫描配准

点云配准算法(例如：ICP )往往依赖于寻找两个点集之间的对应关系。但是由于扫描的片面性，往往没有直接的对应关系。在本演示中，我们探索使用FlowNet3D预测的稠密场景流进行扫描配准。由我们预测的场景流移动的点云1与原始点云1具有自然的对应关系，因此可以用来估计它们之间的刚性运动。如图5所示，在部分扫描中，基于我们场景流的配准比ICP更加的鲁棒，当ICP陷入了局部最优的时候。表6定量比较了直接使用我们的场景流和使用场景流后进行刚体运动估计的ICP的3D翘曲误差(从扭曲点到地面真值点的EPE)。

6.3.2 运动分割

图7为激光雷达点云的运动分割。左：彩色箭图向量中的激光雷达点和估计的场景流。右：运动分割的对象和区域。

我们在Lidar点云中估计的场景流也可以用于场景的运动分割- -根据场景的运动将场景分割成不同的对象或区域。在图7中，我们展示了KITTI场景中的运动分割结果，其中我们根据Lidar点的坐标和估计的场景流向量对其进行聚类。我们看到，不同的运动车辆、地面和静止物体之间被清晰地分割开来。最近，文献[ 22 ]也尝试从RGB - D输入中联合估计场景流和运动分割。有趣的是，在未来的点云中为类似的任务增加我们的方法。

7、结论

在本文中，我们提出了一种新颖的深度神经网络架构，直接从三维点云估计场景流，这可以说是第一个用点云端到端解决问题的成功工作。为了支持FlowNet3D，我们提出了一个新的流嵌入层，它学习聚合点的几何相似性和空间关系来进行运动编码，以及一个新的可训练集特征传播的setconv层。在具有挑战性的合成数据集和真实的Lidar点云上，我们验证了我们的网络设计，并展示了其在各种基线和先验技术上的竞争性或更好的结果。我们还演示了使用从我们的模型估计的场景流的两个示例应用。