[论文简述+翻译]Just Go with the Flow: Self-Supervised Scene Flow Estimation（CVPR 2020）

Javier.Lin_HUST

已于 2023-02-18 10:35:39 修改

阅读量568

点赞数 1

分类专栏：场景流 3D点云文章标签：人工智能计算机视觉深度学习神经网络算法 Powered by 金山文档

于 2023-02-13 17:55:34 首次发布

本文链接：https://blog.csdn.net/qq_40279050/article/details/129004210

版权

3D点云同时被 2 个专栏收录

20 篇文章 1 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

论文简述

第一作者：Himangi Mittal

发表年份：2020

发表期刊：IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

探索动机：目前估计场景流的方法是采用的监督学习，这需要有标注的数据集进行训练。然而点云由于需要给场景中的每个点进行标注，导致标注是很昂贵的。为了弥补真实世界数据的不足，基于学习的场景流方法主要在合成数据集上进行训练，并在真实世界数据上进行微调。这种对有标签训练数据的要求限制了此类方法在现实世界中的有效性。

工作目标：克服真实场景中标注数据少的问题，提出一种自监督的场景流估计方法

核心思想：我们使用最先进的场景流方法的神经网络架构来测试我们的自监督训练方法[ 9 ]。自我监督允许我们在大规模、无标签的自动驾驶数据集上训练这个网络。在没有给出真实世界标注的情况下，我们的方法与当前最先进的性能相匹配。此外，我们的方法在规模较小的标注数据集上结合监督学习时，性能超过了当前最先进的场景流估计方法。

实现方法：具体来说，1、使用最近邻损失，由于场景流标注的不可得性，我们将时间上邻近的点云中距离预测平移点最近的点作为伪GT进行关联。2、使用了循环一致性损失，保证了产生的场景流在时间(也就是说,我们确保一个时间周期在它开始的地方结束)上是一致的。为了解决在只使用自监督学习时，使用循环损失会产生不稳定结果的这个问题，提出了"锚定循环一致性损失"。

实验结论：在这项工作中，提出了一种使用时间上的循环一致性和最近邻损失相结合的自监督方法来训练场景流算法。所提的纯自监督方法能够在广泛使用的KITTI自动驾驶数据集上取得与监督方法相当的性能。文中进一步表明，当监督训练在一个大规模的、未标注的数据集上进行自我监督增强时，结果超过了当前最先进的性能。本文的自监督方法为在缺乏场景流标注的任意数据集上进行微调打开了大门。

论文下载：https://arxiv.org/pdf/1912.00497.pdf

代码下载：https://github.com/HimangiM/Just-Go-with-the-Flow-Self-Supervised-Scene-Flow-Estimation

论文翻译：

Just Go with the Flow: Self-Supervised Scene Flow Estimation

摘要：

当与高动态环境交互时，场景流允许自动系统推理多个独立物体的非刚性运动。这是在自动驾驶领域是特别感兴趣的，其中许多汽车、人、自行车和其他物体都需要精确跟踪。当前最先进的方法需要从自动驾驶场景中标注场景流数据来训练有监督学习的场景流网络。作为替代，我们提出了一种使用两个自监督损失，基于最近邻和循环一致性的场景流训练方法。这些自监督损失允许我们在大量无标签的自动驾驶数据集上训练我们的方法；由此产生的方法在没有真实世界注释的情况下与当前最先进的监督性能相匹配，并且在较小的标记数据集上将我们的自监督方法与监督学习相结合时，其性能超过了最新的性能。

1、引言

对于无人驾驶汽车而言，了解周围环境的动态对于确保安全规划和导航至关重要。对于自动驾驶汽车来说，能够感知周围各种实体的行为是至关重要的，例如其他车辆、行人和骑行者。在数据记录为三维点云的情况下，可以为每个三维点估计一个运动；这被称为场景流，指的是场景中每个三维点的三维速度。其二维模拟，光流，是场景流在相机的像平面上的投影。场景流估计的一种替代方案是使用3D目标检测进行目标级跟踪，并假设包围盒内所有点具有相同的刚体运动。然而，在这样的方法中，目标检测错误会导致跟踪错误。相比之下，场景流方法可以通过直接估计每个3D点的运动来避免这种误差。

最近最先进的方法从三维点云[ 9、6、23、26]中学习估计场景流。然而这些方法是完全监督的，需要有标注的数据集进行训练。这样的标注是昂贵的，因为它们需要为场景中的每个点标注运动。为了弥补真实世界数据的不足，基于学习的场景流方法主要在合成数据集上进行训练，并在真实世界数据上进行微调。这种对有标签训练数据的要求限制了此类方法在现实世界中的有效性。

图1：我们使用两个自监督损失在大规模无标签数据集上学习场景流。"最近邻损失"惩罚预测点云(绿色)与每个预测点在下一帧点云中的最近邻点(红色)之间的距离。为了避免退化解，我们还将这些预测点(绿色)之间的流量反向估计回原始点云(蓝色)形成循环。来自循环(紫色)的新预测点应与原始点(蓝色)对齐；这两组点之间的距离构成了我们的第二个自监督损失："循环一致性"。

为了克服这一局限性，本文提出了一种自监督的场景流估计方法。使用两个自监督损失的组合，我们能够模仿人类注释所产生的监督。具体来说，我们使用了循环一致性损失，保证了产生的场景流在时间(也就是说,我们确保一个时间周期在它开始的地方结束)上是一致的。我们同样使用最近邻损失；由于场景流标注的不可得性，我们将时间上邻近的点云中距离预测平移点最近的点作为伪GT进行关联。直观上，最近邻损失促使一个点云流向下一个点云的占用区域。我们表明，这种组合损失可以用于在包含序列点云数据的大规模未标注数据集上训练场景流网络。本文方法概述如图1所示。

我们使用最先进的场景流方法的神经网络架构来测试我们的自监督训练方法[ 9 ]。自我监督允许我们在大规模、无标签的自动驾驶数据集上训练这个网络。在没有给出真实世界标注的情况下，我们的方法与当前最先进的性能相匹配。此外，我们的方法在规模较小的标注数据集上结合监督学习时，性能超过了当前最先进的场景流估计方法。

2、相关工作

场景流。Vedula等[ 19 ]首次提出了场景流估计的任务。他们提出了一个线性算法来从光流中计算它。其他工作包括联合优化相机外参和立体场景流深度估计[ 17 ]、使用粒子滤波器[ 7 ]、局部刚性运动先验[ 20、22、21、11]和基于平滑的正则化[ 1 ]。

深度场景流。目前最先进的场景流方法使用深度学习来提高性能。Flow Net3D [ 9 ]是在Point Net + + [ 16、15]的基础上直接从一对点云估计场景流。Gu等人[ 6 ]使用一种百面体格以稀疏、结构化的方式对点云数据进行编码，也得到了类似的结果。上述方法直接从三维点云[ 9、6]中计算场景流。基于物体中心刚体假设的体素化方法[ 2 ]、范围图像[ 18 ]和非网格结构化数据[ 23 ]也被用于场景流估计。以上所有方法要么使用合成数据[ 10 ]，要么使用少量已标注的真实世界数据[ 5 ] (两者都有)进行训练。我们的自监督损失能够在大规模无标签数据集上进行训练，从而导致性能的大幅提升。

自监督学习。Wang等[ 25 ]使用自监督学习对视频进行2D跟踪。他们提出了一个跟踪器，该跟踪器在t时刻取一幅图像和t - 1时刻的整幅图像来跟踪上一帧中的图像块。他们定义了一个自监督损失，通过时间上前后跟踪补丁形成一个周期，同时通过循环一致性和特征相似性来惩罚错误。我们从这项工作中得到启发，为我们的自监督点云流量估计。包括自监督信号在内的其他工作包括图像帧排序[ 14 ]、图像随时间变化的特征相似性[ 24 ]以及点云的聚类和重建[ 8 ]。虽然这些方法可以用于3D数据的表示学习，但不能直接用于场景流估计。与我们的工作一致，Wu等[ 26 ]表明Chamfer距离、平滑性约束和Laplacian正则化可以自监督地训练场景流。

3、方法

3.1 问题定义

对于场景流估计任务，我们有一个点云的时间序列：点云X作为t时刻捕获的点云和点云Y为在t + 1时刻捕获的点云。这些点云没有强制的结构，它们可以直接从LIDAR传感器记录或通过立体算法估计。点云X中的每个点pi = { xi，fi }包含该点的笛卡尔位置，xi∈R3，以及传感器产生的任何附加信息，如颜色、强度、法线等，用fi∈Rc表示。

两片点云之间的场景流D = { di } N，di∈R3描述了点云X中的每一个点xi到其在点云Y描述的场景中对应位置x′i的移动，使得x′i = xi + di，N为点云X的大小。定义场景流，使得xi和x′i表示一个物体在时间上移动的同一个3D点。与光流估计不同，由于点云的稀疏性，x′i的精确三维位置不一定与点云Y中的一个点重合。此外，X和Y的大小可能不同。

监督损失。与我们的任务相关的真实误差是估计流g( X , Y) = { D = { ( di } N }和真实流D * = { d * i } N之间的差。

方程1中的损失是有用的，因为它在数学上等价于端点误差，我们使用它作为我们的评估度量。然而，计算该损失需要有标注的真值流d * i。这种类型的标注在合成数据中易于计算[ 10 ]，但对于真实世界数据集需要昂贵的人工标注。因此，目前只有少量带标注的场景流数据集可用[ 12、13]。虽然在纯合成数据上的训练是可能的，但通常可以通过从目标应用领域的真实数据上进行训练来获得较大的改进。例如，Lui等人[ 9 ]在少量标注的真实世界数据上微调后表现出18 %的相对提升。这一结果激励我们的工作使用自监督训练在大规模无标签数据集上进行训练。

图2：连续点云X (蓝色)和Y (红色)之间的自监督损失示例。我们考虑训练过程中GT投影点x′未知的点x。( a )计算前向流预测的投影点 $\text{[math]}$ 与Y中最接近的点之间的最近邻损失( Nearest Neighbor Loss )；( b )循环一致性损失( Cycle Consistency Loss )利用反向流将变换后的点跟踪回其原始帧，作为点 $\text{[math]}$ ，并计算到其原始位置x的距离。

最近邻（NN）损失。对于大的未标记数据集，由于我们没有关于d * i的信息，我们无法计算式1中的损失。为了代替注释数据，我们从迭代最近点（ICP）[ 3 ]等方法中得到启发，使用转换点的最近邻{ ( x′i = xi + ( di ) }作为真实对应的近似。对于每个变换后的点{ x′i∈{ X′}，我们找到它的最近邻点yj∈Y并计算到该点的欧氏距离，如图2a中的eNN所示：

假设初始流估计与正确流估计足够接近，这种损失会使变换后的点云与目标点云更加接近。然而，这种损失如果单独施加，可能会有一些弊端。首先，地面真值流变换后的点xi的真实位置x′i = xi + d * i可能与最近邻点( x′(由估计流变换得到) )的位置不相同，因为估计的流量可能存在较大误差，如图2a所示。此外，如果点云Y足够稀疏，则x′i的位置可能与Y中的任何点都不对应，这在自动驾驶稀疏三维激光雷达采集的点云中是常见的。最后，该损失不惩罚X中所有点映射到Y中同一点的退化解；这样的退化解在方程2下将获得0损失。为了解决这些问题，我们使用了一个额外的自监督损失：循环一致性损失。

循环一致性损失。为了避免上述问题，我们引入了一个额外的自监督损失：循环一致性损失，如图2b所示。我们首先估计"前向"流量为 $\text{[math]}$ 。将估计的流 $\text{[math]}$ 应用到每一个点xi∈X上，给出下一帧中点xi的位置估计： $\text{[math]}$ .然后我们反向计算场景流：对于每个变换后的点 $\text{[math]}$ ，我们估计该流来将该点变换回原始帧 $\text{[math]}$ 。将每个点 $\text{[math]}$ 通过这个"反向"流 $\text{[math]}$ 变换，得到一个新的估计点 $\text{[math]}$ 。如果正向流和反向流都准确，则该点 $\text{[math]}$ 应该与原点 $\text{[math]}$ 相同。这些点之间的误差ecycle为"循环一致性损失"，表示为：

类似的损失在文献[ 9 ]中被用作正则化。

然而，我们发现，如果只使用自监督学习，而不使用任何真实的标注，以这种方式实现循环损失会产生不稳定的结果。这些不稳定性可能是由于场景流估计错误，导致经过变换后的点云 $\text{[math]}$ 出现了的结构失真，而这个点云 $\text{[math]}$ 会在计算反向场景流 $\text{[math]}$ 作为输入而用到。这就要求网络同时学习纠正 $\text{[math]}$ 中的任何失真，同时还要学习估计真实的反向流。为了解决这个问题，我们使用变换点 $\text{[math]}$ 的最近邻yj作为反向传递中的锚定点。使用最近邻yj稳定了变换后云的结构，同时仍然保持了循环前后的对应关系。这种稳定化的效果如图3所示。由于我们使用锚定点作为循环反向传递的一部分，我们将这种损失称为"锚定循环一致性损失"。

图3：复合误差导致利用变换后的点云估计逆向流量存在问题。( a )较大的场景流估计误差使得变换后的云 $\text{[math]}$ (以绿色显示) )结构退化。因此，计算 $\text{[math]}$ (绿色)和X (蓝色)之间的逆向流是一个不适定的任务。( b )使用最近邻点(红色)作为锚点，我们能够稳定变换后的云 $\text{[math]}$ (青色)，从而保留重要的结构信息。

具体地，我们计算锚定反向流如下.首先计算前向流 $\text{[math]}$ ，用于计算变换后的点云 $\text{[math]}$ 。然后计算锚点 $\text{[math]}$ 作为变换点 $\text{[math]}$ 与其最近邻点yj的凸组合，其中锚点的由： $\text{[math]}$ 计算得到。在我们的实验中，我们发现λ = 0.5产生的结果最准确。最后，我们利用这些锚点计算反向流： $\text{[math]}$ .然后将方程3的循环损失应用于这个锚定反向流。通过使用锚定，预测点云 $\text{[math]}$ 的部分结构扭曲将在锚定点云 $\text{[math]}$ 中被去除，从而为反向流提供更稳定的训练输入。

注意到循环一致性损失也有一个退化解："零流"，即 $\text{[math]}$ ，根据方程3将产生0损失。然而，当采用锚定循环一致性时，零流量会产生非零损耗；因此，锚定有助于去除这种退化解。进一步，对于零流的退化解，最近邻损失也将非零。因此，每个最近邻和循环一致性损失的局部极小值相互冲突，使得它们的和，L = LNN + Lcycle可以作为真实误差的稳定替代。

时间翻转增强。只有一个方向的点云序列数据集可能会产生运动偏差，这可能导致网络预测的流量等于训练集的平均前进速度。为了减少这种偏差，我们通过翻转点云来增加训练集，即反向流动。通过这种增强，网络可以看到等数量的具有前向运动和后向运动的点云序列。

4、实验

为了验证本文提出的自监督场景流估计方法在不同监督级别和不同数据量下的有效性，本文进行了多组实验。首先，我们证明了我们的方法在大规模无标签数据集上进行自监督训练，可以在现有的有标签数据上进行监督训练。接下来，我们研究了如何通过将自监督学习与少量的监督学习相结合来提高我们的结果，超过了纯监督学习的性能。最后，我们通过一个消融研究来探索我们方法中每个元素的效用。

4.1 实施细节

对于所有的数据配置(我们的方法与基线)，我们使用在FlyingThing3D数据集上预训练的Flownet3D模型[ 9 ]的参数来初始化我们的网络[ 10 ]。我们将我们的自监督训练过程与在KITTI数据集上使用监督微调的基线进行比较[ 5 ]。比较中使用的基线与Liu等[ 9 ]中相同，只是我们将训练迭代次数从150个历元(如原文所述)增加到10k个历元，以保持与自监督方法中使用的训练迭代次数一致。我们看到，这一变化导致基线表现的小幅改善，我们将其列入结果表。

4.2 数据集

KITTI视觉基准套件。KITTI [ 5 ]是一个真实的自动驾驶数据集。KITTI中的LIDAR数据有150景，使用调速发电机64 LIDAR的7次扫描，使用3D模型进行增强，并使用地面真值场景流进行标注[ 13 ]。对于我们在自监督和监督设置下的实验，我们考虑了150个场景中的100个用于训练，剩下的50个场景用于测试。使用先前工作中进行的预处理从每个场景中移除地面点[ 9 ]。每个场景由两个不同时刻记录的一对点云以及第一个点云的每个点的真实场景流组成。

nuScenes。nuScenes [ 4 ]数据集是面向自动驾驶的大规模公共数据集。它由来自波士顿和新加坡的850个公开可用的驾驶场景组成。LIDAR数据采用20Hz旋转的调速发电机32 LIDAR进行采集。这与KITTI数据集使用的64波束调速发电机以10 Hz的频率旋转形成对比。这种传感器的差异导致了数据稀疏性的差异，从而在KITTI和nuScenes之间产生分布偏移。这种分布变化需要在KITTI上进行额外的训练，而不是在nuScene上进行自监督训练。尽管如此，我们的结果表明在nuScenes上进行自监督训练有很大的好处。

由于nuScenes数据集[ 4 ]不包含场景流标注，因此在处理该数据集时必须使用自监督方法。在我们的实验中，在可用的850个场景中，我们使用700个作为训练集，其余150个作为验证集。与KITTI类似，我们使用手动调整的高度阈值从每个点云中移除地面点。

4.3 结果

当场景流的真值标注可用时，我们使用3个标准度量来定量评估预测的场景流。我们的主要评价指标是端点误差( End Point Error，EPE )，它描述了预测点和真值变换点之间的平均欧氏距离，如公式1所示。我们还计算了两个阈值水平下的准确率，Acc ( 0.05 )为EPE < 0.05 m或相对误差< 5 %的场景流量预测百分比，Acc ( 0.1 )为EPE < 0.1 m或相对误差< 10 %的点数百分比，正如之前的工作[ 9 ]所做的评估。

图4为无标记LIDAR数据训练的KITTI数据点云间t (红色)和t + 1 (绿色)时刻的场景流估计。我们的自监督方法，在nuScenes上训练和使用自监督学习在KITTI上微调的预测以蓝色显示；只有合成训练的基线以紫色显示。在没有真实世界监督训练的情况下，我们的方法明显优于基线方法，基线方法高估了许多区域的场景流。(最好在色彩上观看)

图5是我们的自监督方法与仅在合成数据上训练的基线的比较，在nu Scenes数据集上显示。在t时刻(红色)和t + 1时刻(绿色)计算点云之间的场景流；使用估计的流进行变换后的点云如蓝色所示。在我们的方法中，预测的点云与下一个时间戳(绿色)的点云相比基线有更好的重叠。由于nuScenes数据集不提供任何场景流标注，因此有监督的方法无法适应这种环境。

4.3.1 定量结果

自监督训练：与之前的工作不同，我们不局限于有标注的点云数据集；我们的方法可以在任意序列点云数据集上进行训练。包含真实LIDAR拍摄的城市场景的点云数据集有很多，但大多不包含场景流标注。由于缺乏标注，这些数据不能应用到监督的场景流学习中。相反，我们的自监督损失允许我们很容易地将它们集成到我们的训练集。这些数据集的组合( KITTI + NuScenes)包含了比单独使用KITTI多5倍的真实数据。

图6：KITTI数据集LIDAR数据在t时刻(红色)和t + 1时刻(绿色)点云之间的场景流量估计。我们的方法在nuScenes上使用自监督学习进行训练，然后在KITTI上使用监督学习进行微调。基线方法仅在KITTI上使用监督训练进行微调，并以紫色显示。总体而言，两种方法都很好地估计了场景流，在nuScenes (蓝色)上添加自监督训练使我们的预测能更紧密地匹配下一帧点云(绿色)。在一些场景中，纯监督方法(紫色)低估了流量，与初始点云距离过近(红色)。(最好在色彩上观看)

表1：KITTI数据集上监督等级的比较。对于nuScenes (自监督)和KITTI (自监督)使用最近邻+锚定循环损失。所有方法均在FlyingThings3D [ 10 ]上进行预训练，并针对KITTI和nuScenes数据集去除地面点。

结果见表1。为了展示自监督学习的价值，我们在不使用任何真实标注的情况下评估了我们方法的性能。我们首先在合成的FlyingThings3D数据集上进行预训练；然后，在较大的nu Scenes数据集上进行自监督的微调，然后在较小的KITTI数据集(第4行: '我们的: nu场景(自监督)) + KITTI ( 自监督) ' )上进一步进行自管理的微调。可以看出，在没有真实注记的情况下，我们可以实现0.105 m的EPE。这优于仅在合成数据( "无微调")上训练的基线。更令人印象深刻的是，我们的方法表现类似于在合成数据上预训练，然后在KITTI数据集( ' KITTI (有监督)) ' )上进行监督微调的基线；我们的方法具有相似的EPE，并且在准确性方面优于这个基线，尽管没有任何带注释的训练数据。这个结果表明我们的自监督训练的方法，在足够大的无标签数据集下，可以匹配有监督训练的性能。

自监督+监督：最后，我们展示了我们的自监督学习方法与少量监督学习相结合的价值。对于这个分析，我们在NuScenes上执行自监督训练，然后在更小的KITTI数据集上进行监督训练。结果见表1最后一行。

可以看出，这种先自监督训练后监督微调的方法在这个基准上优于所有其他方法，获得了0.091的EPE，优于之前只使用有监督的最先进的结果。这表明了在大规模无标签数据集上进行自监督训练以提高场景流精度的优势，即使在场景流标注可用的情况下。

图7：平均EPE ( m )对地面真值流量量级( m )的分析。流量估计值按地面真值流量大小进行分档，所有结果均显示95 %的置信区间。

虽然表1只展示了使用Flow Net3D [ 9 ]架构的结果，但我们注意到，我们的方法也优于HPLFlownet [ 6 ] ( EPE为0.1169)的结果以及它们所对比的所有模型。

图7给出了平均端点误差与真值流大小的相关性分析。可以看出，我们的方法在几乎所有流量量级上都一致优于基线。

4.3.2 定性分析

自监督训练- - KITTI结果：接下来，我们进行定性分析，以可视化方法的性能。我们将我们的方法(合成预训练+ nuScenes自监督训练+ KITTI自监督训练)与只进行合成训练的基线进行比较。KITTI实验结果如图4所示。图中分别以红色和绿色显示了t和t + 1时刻捕获的点云。我们方法的预测结果以蓝色显示，基线预测结果以紫色显示。如图所示，我们的场景流预测(蓝色)与t + 1时刻的点云(绿色)有很大的重叠。另一方面，基线预测(紫色)与t + 1时刻的点云不重叠。该基线仅在合成数据上训练，无法推广到真实的KITTI数据集。相反，我们的自监督方法可以在任何真实世界环境中进行微调，并显示出比基线显著的改进。

自监督训练- - nuScenes结果：接下来，我们在nu Scenes数据集上可视化了我们方法的性能。需要注意的是，由于nuScenes没有场景流标注，因此在该数据集上只能显示定性结果。对于该分析，我们的方法与之前一样在合成数据( FlyingThings3D )上进行预训练，然后以自监督的方式在nuScenes上进行微调。没有针对nuScenes的场景流注释可用，因此我们与只在合成数据上训练的基线进行比较。

nuScenes上的结果如图5所示。这些结果再次展示了真实世界数据上的自我监督相对于纯合成监督训练的优势。与之前一样，图中用红色和绿色分别显示了t和t + 1时刻捕获的点云。预测结果以蓝色显示，我们的方法在左边(图5a )，基线在右边(图5b )。如图所示，我们的场景流预测(左图,蓝色)在t + 1时刻(绿色)与点云有较大的重叠。另一方面，基线预测(右图,蓝色)在t + 1时刻与点云不重合。

基线的低性能再次可以归因于其在合成数据上的训练以及无法推广到真实数据。对于nuScenes数据，不存在场景流标注，因此只有自监督学习才能提高性能。

自监督+监督训练- KITTI结果：最后，我们展示了与只执行监督学习相比，将我们的自监督学习方法与少量的监督学习相结合的价值。对于我们的方法，我们先进行合成预训练，然后在nuScenes上进行自监督微调，接着在更小的KITTI数据集上进行监督微调。我们与只进行合成预训练后再进行监督微调KITTI的基线进行比较。

定性结果见图6。图中分别以红色和绿色显示了t和t + 1时刻捕获的点云。我们方法的预测结果以蓝色显示，基线预测结果以紫色显示。如图所示，我们的场景流预测(蓝色)在t + 1时刻与点云有较大的重叠(绿色)，而基线预测(紫色)则没有。

基线预测一个小的运动，使变换后的云(紫色)过于接近初始位置(红色)。如上所述，这种对小运动的偏见很可能是由于在合成数据集上训练基线，这影响了基线对现实数据集的泛化，在现实数据集中，物体表现出与仿真中不同的运动类型。通过在更大的未标记数据集上进行训练，我们的方法能够避免过拟合，并更好地泛化到合成数据集中不存在的场景和流模式。

4.3.3 消融实验

我们通过运行一系列的消融研究来测试我们方法中每个组件的重要性。表2给出了我们的方法在纯自监督( top )和自监督+监督( bottom )训练中迭代移除部分的效果。锚定循环一致性损失(相比于仅使用最近邻损失)的收益见表2 (下)和图8。

表3：改变λ参数对"锚定"循环一致性损失的影响。展示了在nuScenes + KITTI上进行自监督训练的结果。

图8：与仅使用最近邻损失(紫色)进行训练相比，我们的自监督方法与最近邻损失和锚定循环一致性损失(蓝色)进行了消融研究。在t (红色)和t + 1 (绿色)时刻从KITTI数据集中计算点云之间的场景流。

当锚定被移除时，自监督训练( top )的性能大幅下降，锚定的好处显而易见。引入锚点云作为后向流的一部分，在仅使用自监督训练(图8 ,顶部)的情况下，大大提高了性能。这说明有了锚点云，稳定了循环一致性损失的训练。此外，我们评估了我们的系统对锚定参数λ选择的敏感性。表3显示，当λ = 0.5时，即使用预测点和最近点的平均值，我们得到了最好的结果。总的来说，这些分析显示了我们方法的每个组成部分的好处。进一步的消融分析可以在补充中找到。

5、结论

在这项工作中，我们提出了一种使用时间上的循环一致性和最近邻损失相结合的自监督方法来训练场景流算法。我们的纯自监督方法能够在广泛使用的KITTI自动驾驶数据集上取得与监督方法相当的性能。我们进一步表明，当监督训练在一个大规模的、未标注的数据集上进行自我监督增强时，结果超过了当前最先进的性能。我们的自监督方法为在缺乏场景流标注的任意数据集上进行微调打开了大门。

Javier.Lin_HUST

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[论文简述+翻译]Just Go with the Flow: Self-Supervised Scene Flow Estimation（CVPR 2020）

当与高动态环境交互时，场景流允许自动系统推理多个独立物体的非刚性运动。这是在自动驾驶领域是特别感兴趣的，其中许多汽车、人、自行车和其他物体都需要精确跟踪。当前最先进的方法需要从自动驾驶场景中标注场景流数据来训练有监督学习的场景流网络。作为替代，我们提出了一种使用两个自监督损失，基于最近邻和循环一致性的场景流训练方法。这些自监督损失允许我们在大量无标签的自动驾驶数据集上训练我们的方法；
复制链接

扫一扫