[论文翻译]FLOT: Scene Flow on Point Clouds Guided by Optimal Transport(ECCV 2020)

最新推荐文章于 2024-08-07 18:20:02 发布

Javier.Lin_HUST

最新推荐文章于 2024-08-07 18:20:02 发布

阅读量377

点赞数 2

分类专栏： 3D点云场景流文章标签：深度学习人工智能机器学习计算机视觉 3d Powered by 金山文档

本文链接：https://blog.csdn.net/qq_40279050/article/details/129301891

版权

3D点云同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

文章介绍了一种名为FLOT的方法，用于在点云上估计场景流。FLOT利用最优传输理论寻找点之间的对应关系，并通过神经网络学习运输成本。这种方法在合成数据和真实数据上表现出色，需要较少参数且无需多尺度分析。FLOT0是FLOT的简化版本，通过学习特定的最优传输参数实现接近FLOT的性能。研究还发现，大部分性能由学习到的运输成本解释，且FLOT0的核心可以视为一种注意力机制。

摘要由CSDN通过智能技术生成

论文翻译：

FLOT: Scene Flow on Point Clouds Guided by Optimal Transport

摘要：

我们提出并研究了一种在点云上估计场景流的方法FLOT。我们开始FLOT的设计是注意到在点云上的场景流估计退化为在完美世界中估计一个置换矩阵。受最近的图匹配工作的启发，我们建立了一种从最优传输中借用工具来寻找这些对应关系的方法。然后，考虑到现实世界的不完美，我们松弛运输约束。两点之间的传输成本由使用合成数据集在完全监督下训练的神经网络提取的深度特征之间的成对相似性给出。我们的主要发现是，FLOT可以在合成数据集和真实数据集上表现出最好的现有方法，同时需要更少的参数，并且不需要使用多尺度分析。我们的第二个发现是，在所考虑的训练数据集上，大部分性能可以由学习到的传输代价来解释。这产生了一个更简单的方法，FLOT0，它是使用特定的最佳传输参数的选择得到的，并且性能几乎和FLOT一样。

1、引言

场景流[ 38 ]是场景中物体表面点的三维运动。它是场景理解的底层信息之一，在自动驾驶等领域具有重要的应用价值。它的估计是一个多年来研究的问题，使用不同的模态作为输入，如彩色图像，如变分法[ 1、45]或使用分段常数先验的方法[ 16、22、39]，或者同时使用颜色和深度作为模态[ 2、12、32]。

在这项工作中，我们感兴趣的是仅使用三维点坐标作为输入的点云场景流估计。在这种情况下，文献[ 8 ]提出了一种基于最小化目标函数的技术，该技术有利于精确的场景流估计匹配点的接近性和该估计的局部平滑性。在文献[ 35 ]中，从点云中构建2D占用网格，并将其作为输入特征提供给学习到的背景去除滤波器和学习到的寻找匹配网格单元的分类器。然后提出了使用这些网格匹配的最小化问题，以在最后的细化步骤之前计算原始场景流。在文献[ 36 ]中，提出了类似的策略，但是网格单元之间的匹配是使用深度特征来完成的。在[ 3、47]中，点云被投影到二维柱面地图上，并输入到传统的CNN中进行场景流估计。相比之下，FLOT通过使用为其定义的卷积直接消耗点云。最接近的相关著作在第2节中讨论。

我们将场景流估计分为两个连续的步骤。首先，我们找到输入点云的点与点之间的软对应关系。其次，我们利用这些对应关系来估计流量。从最近关于图匹配的工作中得到启发，即使用最优传输来匹配两个不同图[ 18、29、34]中的节点/顶点，我们研究了使用这些工具来寻找点之间的软对应。

我们的网络以连续两个时刻t和t + 1在同一场景中捕获的两个点云作为输入。我们使用点云卷积提取每个点的深度特征，并使用这些特征计算t和t + 1时刻点与点之间的运输成本。两点之间的成本较小，表明它们之间可能存在对应关系。在该方法的第二步，我们利用这些软对应通过线性插值得到第一个场景流估计。然后使用残差网络对这个估计进行修正。在合成数据集上通过梯度下降在完全监督下学习最优传输和网络参数。

我们的主要贡献有：( a )场景流估计的最优传输模块及其性能研究；( b )一个轻量级的体系结构，它可以在不使用多尺度分析的情况下，以更少的参数在合成数据集和真实数据集上执行现有的最佳方法；( c )针对特定的OT参数选择得到了一个更简单的方法FLOT0，该方法取得了与现有方法相竞争的结果。我们注意到FLOT中的大部分性能是由学习到的运输成本来解释的。我们还注意到，FLOT0的主要模块可以看作是一种注意力机制。最后，在结论中，我们讨论了FLOT在场景中没有显式处理遮挡的一些局限性。

2、相关工作

基于点云的场景流估计。在文献[ 4 ]中，通过端到端的训练深度网络来估计LIDAR扫描中物体的刚体运动。最接近的不做刚性假设的相关工作是[ 11、15、40、46]。在文献[ 40 ]中，提出了一种基于不规则结构数据的参数连续卷积，并在分割任务和场景流估计上展示了其高效性。该方法[ 15 ]依赖于Point Net + + [ 30 ]，使用一种新的流嵌入层，该层学习混合两个点云的信息，以产生精确的流估计。在文献[ 11 ]中，提出了一种在多面体格上执行稀疏卷积的技术。该方法允许处理较大的点云。此外，与文献[ 15 ]中在粗尺度上融合一次信息不同，本文提出在多个尺度上融合两个点云的信息。相比之下，我们的方法在最精细的尺度上只融合一次信息。让我们强调，我们的最优传输模块与点云卷积的类型无关。我们选择PointNet + +但可以使用其他卷积。在文献[ 46 ]中，PWC-Net [ 33 ]被用来处理点云数据。以从粗到细的方式估计流量，显示出比以前方法的改进。最后，让我们提及最近的[ 25、46]著作是利用自我监督来解决这个问题的。然而，我们在这项工作中限制了为全监督。

通过最优传输进行图匹配。我们的方法受到最近使用最优传输进行图比较的工作的启发。文献[ 18 ]利用图拉普拉斯算子将图映射为表示图结构的多维高斯分布。然后，这些分布之间的Wasserstein距离被用作图相似性的度量，并允许在图之间匹配节点。在文献[ 27 ]中，每个图被表示为一个向量包(每个节点一个向量)，相似性的度量是这些集合之间的Wasserstein距离。文献[ 29 ]提出了一种基于度量测度空间之间的Gromov - Wasserstein距离[ 21 ]来比较相似度矩阵的方法。这种方法可以用来比较两个图，例如，用一个包含所有节点对之间测地距离的矩阵来表示它们。文献[ 34 ]提出将Gromov - Wassertsein距离与Wasserstein距离融合来比较图。前者用于比较图结构，后者用于考虑节点特征。在我们的工作中，我们使用后一种距离。通过将每个点与其最近邻点连接，为每个点云构建一个图。然后，我们提出了一种方法来训练一个为每个点提取深层次特征的网络，并使用这些特征在我们的最佳传输模块中匹配点云之间的点。

算法展开。我们的方法基于算法展开技术，即采取迭代算法，展开固定次数的迭代，并将这些展开迭代中的部分矩阵乘法/卷积替换为专门为任务训练的新矩阵乘法/卷积来实现。一些工作建立在此技术上，如[ 10、17、24、26]解决线性反问题，或[ 5、14、20、41]用于图像去噪(其中去噪器有时被用来求解另一个反问题)。在这项工作中，我们展开了Sinkhorn算法的少量迭代并训练了其中涉及的代价矩阵。对该矩阵进行训练，使得到的运输计划提供良好的场景流量估计。让我们提一下，这个算法也是展开的，例如在[ 9 ]中训练一个深度生成网络，在[ 31 ]中用于图像特征分配。

3、方法

3.1 步骤1：寻找点与点之间的软对应关系

设p，q∈Rn × 3为同一场景在连续两个时刻t和t + 1的两片点云。向量pi，qj∈R3分别为p和q的第i和第j个点的xyz坐标。点云场景流估计问题是估计场景流f∈Rn × 3，其中fi∈R3是pi从t到t + 1的平移。

图1 .点云p和q经过g，g为每个输入点输出一个特征。这些特征(黑色箭头)在我们提出的OT模块中用于计算每一对点( pi , qj)之间的成对相似性。OT模块的输出是一个传输计划，它告诉我们p点和q点之间的对应关系。这个信息允许我们计算第一个场景的流估计值' f，它被h改进以获得fest。卷积层( conv )基于Point Net + + [ 30 ]，但OT模块可以接受任何其他点云卷积的输出。蓝色虚线箭头表示将点坐标传递到每一层，以便对点进行卷积运算。

Perfect World.我们在完美世界中构造FLOT，其中p + f = P q，P∈{ 0，1 } n × n是置换矩阵. FLOT的作用是在不知道f的情况下估计置换矩阵P。为了做到这一点，我们使用来自最优运输的工具。我们将点pi的运动解释为质量块在时间t和t + 1之间的位移。第一个点云p中的每个点都被归结为一个质量，我们将其固定为n - 1。如果pi + fi = qj，或者等价地，如果Pij = 1，那么每个点qj从pi接收质量n - 1。我们提出通过计算一个从p到q满足的运输计划T∈Rn × n +来估计置换矩阵P。

其中1∈Rn是所有元素都等于1的向量，Cij $\text{[math]}$ 0是从点pi到点qj的位移代价[ 28 ]。运输计划T的每个标量项Tij 0表示从pi运输到qj的质量。

式( 1 )中的第一个约束要求每个点pi的质量完全分布在q中的部分点上。第二个约束要求每个点qj恰好从某些点p接收一个质量n - 1。转移过程中无质量损失。注意到在假设的情况下，成本矩阵C每行每列包含一个零条目，且传输计划除了在这些条目上是处处为零，并且通过传输计划的简单缩放立即满足质量约束。在这种假设情况下，质量约束对于我们的应用来说是多余的，因为它足以找到C的零元素来估计P。需要注意的是，在C中存在"模糊"的更现实的情况下，质量约束发挥作用，确保每个点给出/接收一个质量n - 1，p中的每个点在q中至少有一个对应点，反之亦然。

我们注意到n - 1P满足最优运输约束.我们现在需要构造C使得T = n - 1P。

真实世界与t的快速估计。在真实世界中，等式p + f = P q不成立，因为在t和t + 1时刻，表面没有在相同的物理位置采样，因为物体会因为遮挡而出现( dis )。这些缺陷的一个后果是，( 1 )中的质量守恒不完全成立：质量可能出现也可能不出现。解决这一问题的方法之一是放松( 1 )式中的约束条件。我们不求解( 1 )，而是提出求解

其中λ 0，KL表示KL散度. ( 2 )式中的Uij( log Uij-1)是运输计划的熵正则化。在我们的案例中，它的主要目的是允许使用一种有效的算法来估计传输计划：Sinkhorn算法[ 7 ]。最优传输问题( 2 )的算法版本在文献[ 6 ]中得到，并在算法1中给出。参数 $\text{[math]}$ 控制熵正则化的量。 $\text{[math]}$ 越小，传输计划越稀疏，从而找到p和q的稀疏对应关系。正则化参数λ调节输送质量偏离均匀分布的程度，允许质量变化。我们可以令λ→+∞来施加严格的质量守恒。

注意到算法1中质量正则化由功率λ / ( λ + $\text{[math]}$ )控制。当λ→+∞时，这个幂趋向于1以施加严格的质量守恒，并且在没有任何正则化的情况下达到0。我们不预先固定参数λ，而是让这些参数自由，与其他网络的参数一起通过梯度下降学习。

我们想回忆一下，在完美世界中，λ / ( λ + $\text{[math]}$ )达到1并不一定能产生精确的结果，因为最终的质量也是由C的质量驱动的。在一个完美的情况下，代价将完美地用一个已经由它的零条目编码在C中的双射来训练，那么任何数量的质量正则化都足以达到精确的结果。这既来自我们在上一小节末尾的评论，也来自下一小节关于C的作用和大众规范化的讨论。在实际情况中，代价并不是完美训练的，我们期望训练后的λ / ( λ + $\text{[math]}$ )在( 0 , 1)范围内变化，在完美世界环境下训练时接近于1，在存在遮挡时接近于0。

学习传输成本。( 2 )中的一个重要成分是代价C∈Rn × n，其中每个条目Cij编码pi到点qj之间的相似性。一个显而易见的选择是取每对点( pi , qj)之间的欧氏距离，即Cij =‖pi-qj‖2，但这种选择并不能得到准确的结果。在这项工作中，我们提出通过训练一个深度神经网络g：Rn × 3→Rn × c来学习位移代价，该网络以点云为输入，并为每个输入点输出一个大小为c的特征。然后利用特征g ( p ) i，g ( q ) j∈Rc在点pi和qj之间的余弦距离定义代价矩阵的元素：

特征g ( p ) i和g ( q ) j越相似，单位质量从pi运输到qj的成本越小。指标函数

用于防止算法寻找点与点之间距离太远的对应关系。取dmax = 10m。

为了训练网络g，我们采用与文献[ 9 ]中相同的策略来训练生成模型或文献[ 31 ]中的方法来匹配图像特征。该策略包含算法1的K次迭代。这些展开的迭代构成了图1中的OT模块。可以说，梯度可以反向传播到这个模块的每一步，并允许我们训练g。

C和质量正则化的作用。我们在这段中聚集了早期关于C和质量正则化作用的讨论。为了说明问题，我们回到完美世界的设定中，考虑( 1 )。在这种理想情况下，我们可以进一步梦想能够完美地训练g使得匹配点Cij为空，即当Pij = 1时，否则严格为正。则运输计划满足T = n-1P，运输成本为零。然而，需要注意的是，解T将完全编码在C中，直到全局缩放因子：T的非零元素位于C的零元素处。在这种情况下，大规模传输约束只调整T中的元素规模。这种完美的场景是不可能发生的，但这些考虑突出表明成本矩阵C可以单独使用，并且可能足以找到合适的p和q之间的对应关系来进行场景流估计。质量传输正则化在C中出现模糊的更实际的情况下发挥作用。正则化使得无论C的质量如何，在λ控制的"强度"下，质量尽可能均匀地分布在所有点上。这样就避免了p中的某些点在q中没有匹配点，反之亦然。

FLOT0。FLOT0是FLOT的一个版本，它只利用代价矩阵C来寻找p和q之间的对应关系。该方法是在去掉( 2 )中的质量输运正则化时得到的，即通过设置λ = 0 .在这个极限下，"运输计划"满足

然后在剩下的方法中使用T，就好像它是算法1的输出一样。

3.2 步骤2：从软对应中估计流

在上一步中，我们得到了一个运输计划T，它给出了p，q点之间的对应关系.我们现在的目标是利用这些对应关系来估计流量。就像以前一样，在完美世界和考虑（1）里开始是很方便的.在这个设定中，我们已经看到f = Pq - p并且，如果g被很好地训练，我们期望n - 1P = T。因此，流的一个明显的估计是

其中我们利用了最后一个等式中∑nj = 1 Tij = n - 1这一事实.

在现实世界中，( 6 )中的第一个等式不成立。然而，( 6 )中的最后一个表达式仍然是对流的一个合理的第一次估计。事实上，这个计算等价于对每个点pi计算一个对应的虚拟点，这个虚拟点是q中某些点的质心。pi到qj的输送质量Tij越大，qj对该虚拟点的贡献越大。这个虚拟点与pi的差给出了流fi的一个估计。这个虚拟点是对pi + fi位置的一个"猜测"，即知道pi的质量在q中的传输位置。

然而，我们注意到，( 6 )式估计的流量' f必然是不完美的，因为很可能p + f中的某些点不能表示为找到的对应点q的重心。事实上，由于点云采样的有限分辨率，在p中可见的部分物体在q中可能不再可见。这些缺失区域的流不能从q中重建，而必须利用p中可用的结构信息重建，依靠来自采样良好区域的邻近信息。因此，我们使用残差网络对流量进行细化：

其中h：Rn × 3→Rn × c作为估计流' f的输入，并使用定义在点云p上的卷积。

最后，我们强调在FLOT0的情况下，( 6 )简化为

在这种情况下，可以说OT模块本质上退化为注意力机制[ 37 ]。因此注意力机制是FLOT的一个特例，其中熵正则化起着softmax温度的作用。值得一提的是，类似的注意力层已经在刚性注册等相关问题中显示出了有效性[ 42-44 ]

3.3 训练

网络的参数，用θ， $\text{[math]}$ 和，γ表示，在大小为L的带注释的合成数据集上进行联合训练。注意，为了增强 $\text{[math]}$ ，γ的正性，我们学习它们的log值。为了避免在训练过程中指数函数的数值不稳定性，应用了0.03的常数偏移。

唯一的训练损失是真实流f和估计流fest之间的1 -范数：

其中M ( l )∈Rn × n是一个对角矩阵，编码一个带注释的掩码用于移除流被遮挡的点。

我们使用Adam [ 13 ]在n = 2048时使用批处理大小为4，在n = 8192时使用批处理大小为1，起始学习率为0.001。除非在第4节中指定，否则学习率保持不变。

3.4 与现有技术的异同

FLOT和[ 11、15、46]的第一个主要区别是参数数量，而FLOT (见表1)的参数数量要少得多。另一个不同点是我们没有使用任何下采样和上采样层。不同于[ 11、46]，我们不使用任何多尺度分析来寻找点与点之间的对应关系。点云之间的信息仅混合一次，如文献[ 15 ]，但在最精细的采样分辨率下，不使用g和h之间的跳跃连接。

我们还注意到，[ 11、15、46]依靠应用在串联输入特征上的MLP或convnet来混合两个点云之间的信息。混合函数是学习的，因此不是显式的。很难找到对应关系是如何有效地完成的，即识别哪些输入信息被保留或不被考虑。相比之下，FLOT中的混合函数是显式的，只有两个标量，λ调整为训练数据，它们在OT问题( 2 )中的作用是明确的。OT模块的核心是输入特征之间的简单互相关，是一个易于解释、学习和可视化的模块。最后，在[ 11、15、46]中的卷积神经网络/ MLPs能够逼近的所有函数中，在没有训练数据的进一步指导下进行学习后，得到的混合函数不太可能真正逼近Sinkhorn算法或注意力层。

4、实验

4.1 数据集

与相关工作一样，我们使用FlyingThings3D [ 19 ]在完全监督下训练网络，并在FlyingThings3D和KITTI Scene Flow [ 22、23]上进行测试。然而，没有一个数据集直接提供点云。这些信息需要从原始数据中提取。提取这些3D数据至少有两种略有不同的方式，为了更好地评估性能，我们报告了两个版本的结果。数据集的第一版如[ 11 ]所示。处理后的点云中没有遮挡点残留。

表1。FLOT在FT3Dp、FT3Ds和FT3Do ( top )验证集上的表现。FLOT的性能在OT模块的输出端，即h细化前，FT3Dp和FT3Ds (底部)上进行测量。在FT3Do上的相应表现在补充材料上。我们报告了平均得分和括号内的标准差。请参考Sect . 4 . 3 .

我们将这些数据集分别记为FT3Ds和KITTIs。第二个版本是文献[ 15 ]准备的数据集2，记为FT3Do和KITTIo。这些数据集包含了流被遮挡的点。这些点存在于网络的输入和输出端，但在计算训练损失( 9 )和性能指标时没有考虑，如文献[ 15 ]。关于数据集的进一步信息在补充材料中。需要注意的是，我们从FT3Ds和FT3Do的原始训练集中保留了2000个样本作为验证集。4 . 3 .

4.2 性能指标

我们使用[ 11、15、46]中采用的四个度量指标：端点误差EPE；在EPE上计算不同阈值下的两种精度度量，分别记为AS和AR；使用EPE上的阈值也计算了异常值的百分比。在补充材料中回顾了这些度量的定义。

令我们强调的是，KITTIs和KITTIo上报告的性能是分别使用在FT3Ds和FT3Do上训练的模型得到的，均没有微调。我们不对任何一种方法进行模型适配。尽管如此，我们仍然确保所有数据的xyz坐标轴是对应的。

图2 .图示为FLOT ( K = 1 )训练得到的n = 8192 (见Sect . 4.4 )，在KITTIs的两个不同场景中p和q之间的对应关系。为了更好的可视化，我们在每个场景中隔离了一辆汽车。t时刻拍摄的点云p用橙色表示。图中线条表示查询点pi与运输大部分质量的对应点qj * *的对应关系：j * * = argmaxj Tij。q上的颜色图表示Ti中的值，其中黄色对应于0，蓝色表示Ti中的最大入口，并显示质量如何集中在qj *附近。(彩色图形在线)

表2 .在Ft3Ds和Kittis上的表现。Flow Net3D和HPLFlow Net的评分由文献[ 11 ]得到。我们还报告了文献[ 46 ]中可用的Point PWC - Net的得分，以及使用官方实现( ? )得到的得分。斜体条目用于公开可用但在提交时尚未发布的方法。

4.3 FLOT研究

我们使用FT3Ds、FT3Do和FT3Dp来检测训练后OT参数 $\text{[math]}$ 、λ的取值，研究K对FLOT性能的影响，并与FLOT0进行比较。FT3Dp与FT3Ds是完全相同的数据集，只是我们在采样点模拟完美世界时强制p + f = Pq。这个理想数据集的唯一作用是确认OT模型在完美世界中成立，这是我们设计的出发点。

对于这些实验，在n = 2048时训练40个历元，耗时约9 h。每个模型从不同的θ随机抽取开始训练3次，以考虑由于初始化引起的变化。在n = 2048时对验证集进行评估。注意n个点也是在验证时刻随机绘制的。为了考虑这种可变性，对每个训练好的模型进行5次不同次数的点画验证。对于每个得分和模型，我们可以得到15个值，其均值和标准差如表1所示。我们用h表示细化前后得到的分数。

首先，我们注意到训练后的所有模型 $\text{[math]}$ = 0.03。我们记得，为了防止算法1中的指数函数在达到小值时出现数值错误，我们采用了0.03的常数偏移量。因此，熵正则化，或等价地，FLOT0中的温度达到其最小可能值。这样的小值有利于稀疏的输运方案T，使得p和q之间有稀疏的对应关系。图2给出了这些稀疏对应的示意图。我们观察到对应关系是准确的，并且质量很好地集中在目标点周围，特别是当这些点靠近物体的角落时。

其次，控制质量正则化的功率λ / ( λ + )在FT3Dp上达到比FT3Do更高的值。这是预期的行为，因为FT3Dp不包含缺陷，而FT3Do包含遮挡。在FT3Ds上达到的值介于FT3Dp和FT3Do之间。这也是预期的行为，因为FT3Ds是没有遮挡的，唯一的不完美是场景的不同采样为t和t + 1。

第三，在FT3Dp上，与FLOT0相比，FLOT降低了2倍的EPE，但已经产生了良好的效果。K从1增加到3，误差进一步减小，并在K = 5时趋于稳定。这验证了OT模型在我们的完美世界设定中：OT最优与完美世界最优重合。

第四，在FT3Ds和FT3Do上，除了在FT3Ds上K = 5时的两个指标外，FLOT的平均得分都优于FLOT0。然而，FLOT0的良好性能表明，大部分是由于训练有素的运输成本C。在FT3Ds和FT3Do上，改变K从1到3对EPE的影响小于对FT3Dp的影响。我们还发现当K从3增加到5时，性能略有下降。OT模型( 2 )只能是(模拟)现实世界的近似模型。现实最优和OT最优并不重合。增加K使我们更接近OT最优，但并不一定总是更接近真实世界最优。K成为一个需要调整的超参数。在下面的实验中，我们取K = 1或K = 3。

最后，在FT3Dp上，h的缺失对性能没有影响，FLOT仍然优于FLOT0。这说明OT模块能够自行准确地估计出理想的置换矩阵P，在这种理想的设定下不需要残差网络h。然而，h在更真实的数据集FT3Ds和FT3Do上起着重要作用，存在时EPE除以2左右。

表3 .在Ft3Do和Kittio上的表现。

4.4 在Ft3Ds和Kittis上的表现

我们在表2中比较了FLOT和其他方法在FT3Ds和KITTIs上的性能。我们使用n = 8192个点训练FLOT，如[ 11、46]。学习率设置为0.001为50个历元除以10再继续训练10个历元。

Flow Net3D和HPLFlow Net的评分直接由文献[ 11 ]得到。我们报告了文献[ 46 ]中提供的PointPWC - net的评分，以及我们使用相关代码和预训练模型获得的更好的评分。3模型大小来自于文献[ 15 ]对FlowNet3D的补充材料，以及文献[ 11 ]和[ 46 ]提供的预训练模型。HPLFlowNet、PointPWCNet和FLOT分别包含19 M、7.7 M和0.11 M个参数。

FLOT在FT3D和KITTI上的表现均优于FlowNet3D和HPLFlowNet。FLOT在KITTIs上的EPE略优于PointPWC - Net，在FT3Ds上与PointPWC - Net相当。然而，PointPWC - Net取得了更好的精度并且具有更少的异常值。FLOT是使用较少的可训练参数(比Point PWC - Net减少69倍)的方法。

图3展示了两种场景下KITTIs场景流估计的质量。我们注意到FLOT对齐了所有的对象。我们还注意到，在OT模块的输出端估计的流ø f已经具有很好的质量，即使性能分数在改进后得到了提高。

图3 .使用FLOT ( K = 1 ) atn = 8192，从KITTIs的两个场景输入点云p，q以及地面真值p + f，估计p + ' f和精化p + fest。(彩色图形在线)

4.5 在Ft3Do和Kittio上的表现

我们使用文献[ 15 ]中的FT3Do和KITTIo对FlowNet3D和FLOT进行了比较。我们使用相关官方实现对FlowNet3D进行训练。我们在n = 2048个点上训练FLOT和FLOT0，使用0.001的学习率训练340个历元，然后除以10，继续训练60个历元。

表3报告了两种方法的性能。我们注意到FLOT和FLOT0取得了比FlowNet3D更好的精度，在FT3Do上AS提高了8.8点，在KITTIo上AS提高了17.7点。离群点的数量减少了相同的量。FLOT在K = 1时表现最好，FLOT0紧随其后。在KITTIo上，表现最好的是FLOT0和FLOT在K = 3时的模型。

读者可以看到，Flow Net3D的结果与文献[ 15 ]中的结果类似，而KITTIo的结果较差。对KITTIo的评估在文献[ 15 ]中做了不同的处理：场景被划分成块，在全局聚合之前在每个块内估计场景流。在本工作中，我们保持与Sect . 4.4采用与[ 11、46]相同的步骤：使用来自场景的n个随机点在一个通道内处理整个场景来评估训练好的模型。

5、结论

我们提出并研究了一种使用最优传输工具构建的场景流估计方法。它可以在需要更少参数的情况下达到与最佳性能方法相似的性能。我们还表明，学习到的运输成本负责大部分的性能。这产生了一个更简单的方法FLOT0，其性能与FLOT相当。

我们也注意到遮挡的存在对FLOT的性能有负面影响。提出了对等式中质量约束的松弛。( 2 )允许我们限制这些遮挡对性能的影响，但没有明确地处理它们。因此，通过检测，例如通过分析有效传输的质量，以及明确处理遮挡，有改进的空间。

Javier.Lin_HUST

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[论文翻译]FLOT: Scene Flow on Point Clouds Guided by Optimal Transport(ECCV 2020)

我们提出并研究了一种在点云上估计场景流的方法FLOT。我们开始FLOT的设计是注意到在点云上的场景流估计退化为在完美世界中估计一个置换矩阵。受最近的图匹配工作的启发，我们建立了一种从最优传输中借用工具来寻找这些对应关系的方法。然后，考虑到现实世界的不完美，我们松弛运输约束。两点之间的传输成本由使用合成数据集在完全监督下训练的神经网络提取的深度特征之间的成对相似性给出。我们的主要发现是，FLOT可以在合成数据集和真实数据集上表现出最好的现有方法，同时需要更少的参数，并且不需要使用多尺度分析。
复制链接

扫一扫

专栏目录