ZeroFlow: Fast Zero Label Scene Flow via Distillation论文阅读笔记

本文链接：https://blog.csdn.net/qq_43111600/article/details/131769795

ZeroFlow: Fast Zero Label Scene Flow via Distillation

2023年arxiv上，
Paper
Code

摘要

最先进的方法使用了强大的先验和测试时间优化技术，但对于大规模的点云需要几十秒的顺序，这使得它们不能作为计算机视觉原语用于实时应用程序，如开放世界对象检测。前馈方法要快得多，对于大规模的点云，其运行速度在几十到几百毫秒之间，但需要昂贵的人工监督。为了解决这两个限制，我们提出了通过蒸馏的场景流，这是一个简单的蒸馏框架，它使用无标签优化方法来产生伪标签来监督前馈模型。我们对这个框架的实例化，ZeroFlow，在大规模点云上实时生成场景流估计，质量与最先进的方法竞争，同时使用零人工标签。值得注意的是，在测试时，ZeroFlow比大规模点云上基于无标签优化的方法快1000×，与未标记数据的人工注释相比，对未标记数据的训练成本超过1000×。

作者大致是说目前最先进的方法处理大规模点云速度太慢，不能应用于实时的应用程序。而前馈方法要快得多，对于大规模点云运行速度在几十到几百毫秒之间，但需要人工监督。作者为解决这两个限制提出了ZeroFlow，使用简单的蒸馏框架，使用零人工标签，并且速度比现有无标签优化方法快千倍。

现在的问题：
1.什么是前馈方法（ Feed forward methods），全监督的方法？，为什么比无监督方法快很多？
答：全监督方法。

1引言

场景流估计是开放世界目标检测和跟踪的重要基础。
随后作者提到了Najibi et al的Neural Scene Flow Prior通过使用高质量的场景流估计，为开放世界激光雷达探测器生成监控盒，这样的一个方法。虽然该方法不需要人类监督，但运行太慢。如果可以同时兼顾NSFP的高质量与速度，那它就可以直接用于runtime级别的原始下游检测器，而不是被降级为一个离线管线。然后提到由FlowNet3D生成的场景流可作为多目标追踪管线的原始输入，虽然FlowNet3D对于中等大小的点云的在线处理已经足够快了，但它的监督前馈方法需要大量的域内人工标注。
总的来说，这些范例方法代表了它们的方法类的优缺点：最先进的场景流方法1.使用极其昂贵的人工注释训练前馈模型，或2.使用没有人工注释操作的测试时优化技术，但是对于在线场景流估计来说太慢了。
作者提出了通过蒸馏的场景流（SFvD），该框架虽然概念简单，但生成了一类新的场景流估计方法，结合了基于优化的优势和前馈方法，在没有人工监督的情况下实现快速运行时和高精度
在这里插入图片描述
如图，作者在Artogirse2数据集上，对于大规模点云的场景流估计，精度接近有监督的方法，速度比NSFP快千倍。
作者将此管道实例化到零标签实时场景流（ZeroFlow）方法中，使用可扩展到大规模点云的组件，同时提供高质量的场景流估计。
作者的主要贡献：

1我们介绍了一个简单而有效的蒸馏框架，通过蒸馏的场景流（SFvD），它使用无标签优化方法产生伪标签来监督前馈模型，允许我们在前馈方法的速度下近似基于慢优化的方法的性能。
2使用SFvD，我们提出零标签实时场景流（ZeroFlow），方法产生竞争竞争力的实时场景流在大规模云，运行超过1000×比先进的优化方法在真实点云和超过1000×便宜训练相比人类注释的成本。
3我们为流行的Argogrse2[46]和Waymo Open [37]自动车辆数据集发布高质量的流伪标签（代表4.8个GPU月的计算），以及我们的代码和训练的模型权重，以促进研究重用。

2相关工作

作者将最近的场景流估计方法可以分为三类，包括测试时间优化、有监督深度学习和自监督深度学习方法。

3方法

提出了Scene Flow via Distillation (SFvD)，一个概念上简单的蒸馏框架，它描述了一种新的场景流估计方法，它快速、高质量，不需要人工监督（图3）。具体地说，使用一种基于无标签优化的方法来生成场景流伪标签，用于监督一个快速前馈模型。虽然概念上很简单，但有效地实例化SFvD需要仔细的构建；大多数在线优化方法和前馈模型无法有效地扩展到大规模的点云。基于我们的可伸缩性分析，我们提出了零标签实时场景流（ZeroFlow），这是一种基于sfvd的场景流方法，可以在没有任何人工标签的大尺度点云中实时产生竞争质量的场景流（算法1）。ZeroFlow使用神经场景流先验（NSFP）在全尺寸的点云上生成高质量的、无标签的伪标签（第3.2节），并使用FastFlow3D [的前馈体系结构进行高效的流推断（第3.3节）。

3.1通过蒸馏法扩展场景流到大的点云

流行的AV数据集包括 Argoverse2（用双压差VLP-32传感器收集）和Waymo Open（收集专利激光雷达传感器和下采样）在地面删除后，平均每帧分别52000和79000个点。在实际应用中，双返回模式下的压差VLP-128等传感器每次扫描可以产生高达48万点，而全分辨率的专有传感器每次扫描可以产生超过100万点。因此，场景流的实际应用方法必须扩展到大规模的点云。但大多数方法严格关注小型点云的场景流质量，将点云随机子采样到8192点。
而作者的目标是对完整点云进行场景流估计，在这个尺度下，架构的效率非常重要。FastFlow3D使用PointPillar style编码器，可以在100毫秒内在NVIDIA Tesla P1000 GPU上处理100万个点(使其对10Hz激光雷达是实时的)，而像FlowNet3D这样使用3D逐点卷积的方法，需要几乎4秒来处理相同的点云。设计的方法可以有效地扩展到大型点云。对于SFvD的伪标记步骤，方法运行时间不需要担忧-伪标记每个点云对是并行的。而高质量的方法，如神经场景流先验（NSFP），在估计具有70K点的点云上的场景流时，只需要少量的GPU内存（低于3GB）。这使使用普通gpu进行快速伪标记成为可能;用NSFP对Argoverse 2序列进行伪标记比人工注释便宜1000倍以上。SFvD的学生前馈模型的运行时间至关重要，因为它决定了方法的测试时间速度，激励了像FastFlow3D[18]这样可以实时处理大规模点云的模型。
在这里插入图片描述

3.2 Neural Scene Flow Prior 是一个慢教师

NSFP是一种基于优化的场景流估计方法。值得注意的是，它没有使用地面真值标签来生成高质量的流，而是依赖于其可学习函数类(由其坐标网络的体系结构决定)和场景流的代理度量的强先验。Point residuals在由随机初始化的两个MLP在运行时可以拟合每个点云Pt与Pt+1。一个用于表示从Pt到Pt+1的正向流的在这里插入图片描述与一个表示从到Pt反向流，这个反向流的目的是施加一个循环约束。然后将两个流共同优化到最小。

这里的TruncatedChamfer是标准倒角距离（Chamfer distance），为了减小离群点的影响而将两点间距离超过两米的设置为0。以下公式是倒角距离公式，还是比较直观的。
在这里插入图片描述
由于选择了坐标网络结构和周期约束，NSFP能够产生高质量的场景流估计。该坐标网络的可学习函数类具有足够的表现力，可以拟合运动目标残差的低频信号，同时具有足够的限制性，可以避免拟合TruncatedChamfer的高频噪声，循环约束对前向流起到平滑正则化的作用。NSFP提供了全尺寸点云的高质量估计，使其成为SFvD伪标签步骤的良好候选。FastFlow3D最小化了端点误差（方程1）的变化，从而降低了背景点的重要性，从而最小化

3.3 FastFlow3D 是一个快学生

FastFlow3D [18]是一个高效的前馈网络，它使用人工监督标签在这里插入图片描述和每点前景/背景类标签进行学习。

FastFlow3D最小化了端点误差（End-Point Error）（公式1）的变体，从而降低了背景点的影响，从而最小化

就是给端点误差加了一个权重，前景点权重为1，背景为0.1，从而弱化背景的影响。FastFlow3D使用pointpillar风格的编码器，传统地使用了高效的激光雷达目标检测[39,40]，具有U-Net风格的主干。U-Net的编码器分别处理Pt和Pt+1，而解码器联合处理这两个嵌入过程。使用一个小的MLP，利用该点的坐标及其相关的输出柱特征来提取Pt中的每个点的场景流。
正如3.1节所讨论的，FastFlow3D的设计选择使其对大型点云具有高度可扩展性。虽然大多数前馈网络都是在标准的小点云评估协议上进行评估的，但FastFlow3D能够扩展到全分辨率的点云，同时保持实时性能并发出具有竞争力的高质量场景流估计，使其成为SFvD蒸馏步骤的良好候选。
为了使用伪标签来训练FastFlow3D，我们需要一个替换σ(·)的缩放函数（公式4），因为伪标签不提供前景与背景的语义。作者提出了一种基于伪标签流量级的软加权方法，对于伪标签流在这里插入图片描述中的点p，我们在0.4 m/s 0.1的权重与1.0 m/s 1的权重之间线性插值p的权重，即

但根据文中说法公式里面的1.8s-0.8应该为1.5s-0.5
这些阈值被选择来将大约80%的点的权重降低0.1×，其他20%的点在软权重区域和全权重区域之间分割。在第4.2节中，我们表明，我们的加权方案比均匀加权提供了重要的改进。
此外，在FastFlow3D的问题之外，作者还设置了两个小方法。与FastFlow3D不同，我们使用数据集提供的地图删除基点，并使用标准的场景流问题设置来预测残差（第2节），而不是在给定之前的两个帧中以每秒米的单位预测未来的流量矢量。我们的方法在算法1中给出，设置细节在第4.1节中详细说明。作者使用数据集提供的地图删除地面点，并使用预测残差的标准场景流问题设置(第2节)，而不是在给定两帧之间以每秒米为单位预测未来的流向量。作者的方法在算法1中给出，设置细节在第4.1节中详细说明
在这里插入图片描述
对于两帧连续点云，使用教师NSFP网络学习到一个场景流，这两帧点云丢学生网络预测，并与教师网络的场景流做带权重的EPE损失l。然后根据w.r.t和损失l来更新参数。

4实验

虽然许多场景流方法是使用平均端点误差（公式1）来评估的，但下游应用程序通常依赖于前景点的高质量场景流估计；然而，大约80%的典型点云是背景。为了防止背景点主导我们的评估，我们使用了Chodosh等人的[6]中提出的度量，threeway-EPE。
在这里插入图片描述

4.1 ZeroFlow与真实点云上最先进的场景流方法相比如何？

Argoverse 2 Sensor dataset，Waymo Open dataset version 1.4，.这两个数据集都由从自动驾驶车辆上的激光雷达收集的真实世界点云，以及自我姿态和地图信息（实现有效的自我运动补偿和基点去除）和移动物体上的模态边界框（实现人体监控）组成。
在这里插入图片描述

Argoverse 2:该数据集包含700个训练序列和150个验证序列。每个序列包含15秒的10Hz点云，使用安装在车顶上的两个动态动力VLP-32s收集。作为 ZeroFlow, FastFlow3D, and NSFP w/ Motion Compensation,的训练方法的一部分,我们进行自我补偿、地面点去除，并将所有点限制在以自我车辆为中心的102.4米×102.4米区域内，从而得到平均52,871个点的点云（图5a）。点云Pt+1以自我车辆坐标系的原点为中心，而Pt被投影到Pt+1的坐标系中。对于ZeroFlow 和 FastFlow3D， PointPillars encoder使用0.2m×0.2m柱，所有体系结构配置与[18]匹配。对于NSFP w/运动补偿，我们使用与原始方法[25]相同的体系结构和早期停止参数。对于FastFlow3D和ZeroFlow的FastFlow3D学生架构，训练到收敛(50个epoch)， Adam[19]学习率为2 × 10−6，批处理大小为64。对于表1中的所有其他方法，我们使用Chodosh等人[6]提供的实现，它们遵循他们各自论文中的地面去除和自我补偿协议
Waymo :该数据集包含798个训练序列和202个验证序列。每个序列包含20秒的10Hz点云，使用安装在汽车屋顶上的定制激光雷达收集。我们使用与Argoggrse2相同的预处理和训练配置；经过自我运动补偿和基点去除后，平均点云有79327个点（图5b）。

在这里插入图片描述

分析结果。ZeroFlow实时运行（表1-2），匹配了最先进的FastFlow3D的运行时，这是一种具有相同前馈架构的监督方法，比第二快的无标签方法（PPWC [47]）快3×，同时处理近7×的点。但ZeroFlow不仅快速，还产生了具有竞争力的质量流：它的三通道EPE比FastFlow3D差约1厘米，比缓慢、高质量的基于优化的方法[25,6]差3.5厘米。为了确定这些误差的规模，argorse2激光雷达的制造商只保证激光雷达本身的深度精度到±3.0厘米的误差[27]；关于质量上有意义的差异的进一步讨论见补充B。表1还展示了一个有趣的现象，即ZeroFlow模型可以超过教师的表现（NSFP [25]）；ZeroFlow在静态FG EPE和静态BG EPE上的表现优于NSFP。NSFP在这些平稳点上的误差为零均值，我们假设学生网络学会了识别非移动的点，并回归到它们的期望流为0。

4.2是什么标签差异使FastFlow3D优于ZeroFlow？

在表1和表2中，人类标签监督FastFlow3D略优于ZeroFlow；两者在同一点云的推理和训练时都有相同的模型架构，这意味着差异必须来自人类与机器生成的流向量以及这些点云的人类前景/背景点标记。我们的目的是理解：流向量和损失函数组件的各种差异在多大程度上涉及到这些性能差异？

4.2.1 与人工标签相比，在方法场景流估计中是否存在系统误差？

NSFP、Chodosh、FastFlow3D和ZeroFlow都提供了全尺寸点云上的高质量流（图1）；然而，没有一种方法能完美地匹配人类的地面真相注释。这些分歧是对称的，是零均值吗？是否存在系统偏差？
为了理解这些可能的偏差，我们使用Argogirse2[46]计算了在0.5 m/s以上移动的点的不同场景流估计的度量空间端点残差热图（图4）。对于每一点，将该方法估计的流向量投影到鸟眼视图中，并旋转到人类标注的地面真实向量的坐标系中；使地面真实向量垂直指向，其端点为0m、0m，伪标签的相对端点将在热图上累积。这些剩余图的未旋转版本以及原始基线的热图（例如，最近邻，0 Flow）见补充D，图6-8。我们还比较了使用NSFP伪标签训练的零流和使用Chodosh伪标签训练的零流（第4.2.4节）；所得到的残余热图（补充D，图8）实际上是相同的。
所有方法标签的平均横向误差(水平轴)均为零，但在纵轴上存在不同程度的流量欠估计。NSFP低估了0.950cm /帧，Chodosh低估了0.968cm /帧，FastFlow3D低估了1.208cm /帧，ZeroFlow低估了1.913cm /帧。这些不断增长的错误率大致与这些方法在Argoverse 2上的总体性能成正比。请参阅补充B以说明这些差异的规模。

4.2.2 ZeroFlow的性能有多少是由于它的流速权重？

与人类监督的FastFlow3D不同，ZeroFlow不能使用人类的前景/背景点标签，因此它使用伪标签点速度作为重要性的代理（第3.3节，方程5）。为了理解这种加权对ZeroFlow性能的影响，我们用修正损失训练ZeroFlow；我们不是按速度缩放（公式5），而是均匀加权所有点（σ（·）=1）。
在这里插入图片描述
消融实验证明公式5的加权方法确实有用。

4.2.3FastFlow3D的性能有多少是由于它的语义点权重？

与ZeroFlow不同，FastFlow3D可以使用人工前景/背景点标签来增加前景点的流动重要性（第3.3节，公式4）。为了理解这种权重的影响，我们用修改后的损失训练FastFlow3D；我们没有使用公式4中描述的语义进行缩放，而是对所有点（σ（·）=1）进行统一加权。
在这里插入图片描述

这就提出了一个问题：为什么语义加权的性能改进比我们的无监督移动点加权方案更大（第4.2.2节）？语义加权不仅增加了移动物体的损失，而且还隐式地教会网络识别物体本身的结构。例如，通过方程4的缩放，平稳行人的终点误差明显高于静态背景点，激励网络学习检测行人共同的点结构，即使是不动的，以完善对这些点的预测。

4.2.4使用现有的、质量更好的伪标记方法可以改进ZeroFlow吗？

第4.2.3节显示，仅使用人流矢量训练的FastFlow3D下降到几乎零流的水平；然而，剩余的质量差距（8.7厘米三径EPE与伪标签矢量和速度加权，而与人矢量8.5厘米，没有加权）必须是由于人流矢量的优越质量。这就提出了一个问题：现有的优化方法是否可以产生更好质量的流向量，从而产生更好的zero流版本？
为了理解更好的伪标签向量的影响，我们使用Chodosh等人[6]的高质量的流向量对arg2训练零流，该方法提出了NSFP标签的细化步骤，以提高流向量质量。
在这里插入图片描述

5 结论

我们的场景流方法，零标签实时场景流（ZeroFlow），通过我们概念上简单的蒸馏管道，在没有人工标签的情况下产生具有竞争力的实时场景流。
本文介绍了一种名为ZeroFlow的场景流方法，它通过概念简单的蒸馏管道，在没有人类标注的情况下实时生成竞争力高的场景流。该系统不需要人类标注，具有技术和社会上的多种优势。与人类标签相比，该方法的无需人类标注使得训练成本大大降低，训练过程也更加高效。该方法同样适用于各种不同类型的场景，而不像人类标注只能针对特定类型的场景。此外，该方法的开放性也使得场景流技术更加民主化，使得从业者只需使用数据和普通的GPU即可获得标签，而不需要与数据标注公司签订昂贵的合同。但是，该方法也存在局限性，即它会继承伪标签的偏差。未来的研究可以通过创新模型架构、损失函数和伪标签来改进该方法。为了促进基于蒸馏的方法的进一步研究，作者公开了代码、训练模型权重和NSFP流伪标签。其中，Argoverse 2数据集的训练需要1.2个GPU月，Waymo Open数据集的训练需要3.5个GPU月。

6 自己的一些思考

这篇论文似乎只是用无监督方法生成伪标签来监督有监督方法，然后优化了一些损失函数。有关于速度提升千倍与标签标注便宜千倍似乎算不上他的贡献。关于对语义不同点与速度不同点的加权有一定的学习价值。