[论文翻译]Occlusion Guided Scene Flow Estimation on 3D Point Clouds（2021 CVPR）

Javier.Lin_HUST

于 2023-03-27 21:56:06 发布

阅读量617

点赞数 2

分类专栏：场景流 3D点云文章标签：人工智能深度学习计算机视觉 3d 算法

本文链接：https://blog.csdn.net/qq_40279050/article/details/129791078

版权

3D点云同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

基于点云数据场景流中测量遮挡的第一个工作

论文翻译

Occlusion Guided Scene Flow Estimation on 3D Point Clouds

摘要

在给定深度或距离传感器的情况下，三维场景流估计是感知环境的重要工具。与光流不同的是，数据通常是稀疏的，并且在大多数情况下，在两个时间采样之间存在部分遮挡。在这里，我们提出了一种新的场景流体系结构OGSF - Net，它紧密耦合了帧间流和遮挡的学习。它们的耦合共生导致对空间中流动的预测更加准确。与传统的多动作网络不同，我们的统一方法在整个网络中进行融合，提高了遮挡检测和流量估计的性能。我们的架构是第一个在点云上测量三维场景流估计中的遮挡。在Flyingthings3D和KITTI等关键数据集上，我们取得了当前最好的结果

1、引言

场景流估计是计算机视觉中的一个核心挑战，旨在从连续的时间帧中找到点与点之间的三维运动。虽然图像间的流动，也称为光流，在现代视觉系统中仍然具有重要的作用，但深度传感器的兴起将焦点转向了几何流动。这两个任务在精神上是相似的，但有一个根本的差距- -光流数据源是在网格顶部给定的规则稠密样本，而大多数深度传感器，特别是室外，在空间上提供了稀疏的点集。从算法角度看，在深度网络时代，这种鸿沟将我们从基于图像的卷积转向图神经网络架构。

早期解决三维模型对齐的尝试是最小化点到点或点到平面的能量，被称为迭代最近点( Iterative Closest Point，ICP )算法[ 5、9]，在迭代步骤中搜索最接近的匹配点集并最小化该子集上的能量。首先引入刚性对齐[ 5 ]，然后通过添加适当的正则化[ 3 ]来解决快速非刚性变形。多年来出现了许多不同的对齐方法。仅有的几个- - [ 17、7、20、14、11]关注立体图像之间的RGB - D，[ 35 ]引入了更鲁棒的代价函数，[ 36 ]将对齐视为二次分配任务，[ 1 ]加入了内在的长测地线来丰富过程的全局特征。

从公理化方法转向基于学习的方法最近变得可行，其中图卷积的发展以及足够丰富和深度的网络能够感知更多的场景。FlowNet3D [ 23 ]可能是第一个用于对齐三维点云的健壮的可学习深度网络。它采用Point Net + + [ 33 ]结构，利用流嵌入层计算点云之间的相关性。遵循这一思路，PointPWC-Net [ 53 ]基于光流机制[ 44 ]，在局部相关性之上使用特征金字塔网络，并使用新的代价量和代价函数，在所有基准测试中都显示出优越的结果。最近，我们看到了通过将所有点与所有点相关联来处理更大的变形集的尝试[ 31 ]，但是这些模型需要大量增加内存资源，并且存在需要清理的异常值。

当计算对象之间的流时，我们在许多情况下会遇到遮挡的挑战，其中一帧中的某些区域在另一帧中不存在。由于传感器与物体之间的位移，传感器在所有时间步中都没有看到整个物体。对遮挡区域处理不当会降低流量估计的性能。对于图像中的光流任务，当然对于场景流也是如此。经典的方法通常将非相干运动进行正则化处理，使其从非遮挡像素传播到遮挡区域[ 40、26]。在深度学习时代，除了流估计外，还学习了遮挡。这些尝试在规则网格上效果很好，但由于数值挑战，传统上在稀疏点集上失败。在这项工作中，我们专注于这个确切的任务，并首次表明，如果我们在一个有指导的方法中把流动和遮挡的任务耦合得足够紧，我们可以在两个世界中获得；获得更准确的流和理解什么是遮挡。

工作的主要贡献是：

•我们提出了一个名为OGSF - Net的深度学习模型，可以从点云中联合估计场景流和遮挡图。

•我们在Cost Volume层中使用了遮挡处理机制。

•我们提出了一个新的残差多尺度架构来代替传统的多尺度流方案。

•我们在FT3D和KITTI2015上达到了SOTA

图1：多任务模型。OGSF - Net直接使用两个不同帧的点云作为输入。它预测源相对于目标的场景流和遮挡图。

2、相关工作

点云上的深度学习。深度学习已经被证明是图像处理中最成功的学习工具之一，并在公理化建模方面取得了新的成就。图神经网络，专注于更一般化的结构，其中的顶点和边代表我们的数据，紧随其后，出现了令人兴奋的处理不规则数据的新工具。在计算机视觉中，点云是一种非常常见的表示由距离传感器获取或在虚拟世界中生成的几何形状的方法。我们看到一些论文通过对数据进行采样并将点投影到体积格[ 54、2、32、25]，然后聚焦于点卷积或边和点拉层的组合，称为消息传递[ 48、8、33、34、42、45、43、16、12、47、22、25]，以应对新的挑战。有意思的后续论文迅速出现，试图解决图的排列问题带来的主要挑战。我们看到最近不同的采样策略或不同的拉取方法。MLP层和最大池化是[ 8、34]的两个相关且流行的构建模块。另一种有趣和流行的方法是使用点作为原始数据输入[ 8 ]，然后是一个分层的体系结构，可以捕获点云的局部结构[ 33 ]。将点云视为图并在局部邻域上进行卷积具有重要意义，最近在卷积引擎[ 6、41、49、15、50、52]上介绍了几种成功的方法。在我们的工作中，我们使用[ 52、53 ]建议的 PointConv对点云进行卷积。

点云上的场景流估计。随着范围数据的日益普及，催生了对点云快速、精确建图的需求。[ 10、4、39、46]建议直接从真实的LiDAR扫描中估计场景流。[ 10、4]将场景流视为刚性运动，而[ 49、23、13、53、24、31]去除了这些限制。在[ 33 ]架构的基础上，FlowNet3D [ 23 ]引入了一个新的流嵌入层来聚合来自不同帧的特征。然而，他们只应用了一定规模的流嵌入，限制了帧间允许的可行间隙。文献[ 53 ]在文献[ 44 ]的基础上引入了神经网络，该网络能够以由粗到精的方式预测场景流，对于大流和小流都表现出优越的结果。但是，它们没有对遮挡进行任何处理，当点云中存在遮挡区域时，它们的精度明显下降。最近，文献[ 38 ]建议同时使用RGB和LiDAR数据来估计场景流，通过提供额外的信息层来克服歧义性。文献[ 31 ]提出了一种有趣的方法，通过图匹配来关注所有的相关性。

场景流中的遮挡估计。场景流估计和遮挡被当作鸡和蛋的问题处理，因为它们彼此高度相关且相互影响。许多文献[ 19、20、21、40]建议将遮挡掩码与流联合预测，并利用预测的遮挡掩码对流量估计进行精化。[ 18、51、28]建议同时预测前向流和后向流，并根据扭曲图像找到遮挡区域。在文献[ 21 ]中，他们提出了一种无监督的训练框架，可以从多帧中预测光流和遮挡。在[ 44 ]的基础上，PWOC3D [ 40 ]提出了一种自监督的遮挡估计策略，通过使用遮挡图来掩盖Cost Volume层内部的扭曲特征。

在这项工作中，我们建议这整个网络中结合两个方面，而不仅仅是在成本函数中。我们主张，遮挡应该引导流动，同时遮挡也可以作为网络结构本身的一部分以获得两者的最大收益。据我们所知，我们是第一个在点云上估计三维场景流估计中的遮挡，也是第一个在方法中提出引导链接单元来解决流-遮挡耦合任务。我们在已知数据集上展示了上述所有方法的最新比对结果。

图2：架构。在左边，我们展示了OGSF - Net的整个管道。它取左边的输入点云，使用PointConv + FPS对每一层的点云进行下采样。在右边，我们展示了每个层次的细节。为了构造我们的Cost Volume，我们首先将目标向源进行弯曲。利用特征传播层的Point Conv和MLP为Flow / Occlusive分支创建共享输入特征。

3、问题定义

给定一个三维场景的两次采样，我们希望估计源和目标之间的空间运动，并识别源中没有出现在目标中的点。我们将两个采样场景，源S和目标T表示为点云。具体来说，S = { pi | pi∈R3 } n1i = 1有n1个点，T = { qj | qj∈R3 } n2j = 1有n2个点.每个点也可以有颜色或局部法线等特征向量。为了简化记号，我们记ci∈Rd为点pi∈S的特征，gj∈Rd为点qj∈T的特征.

考虑到S表示源域的一个采样，我们希望找到S中每个点的空间流，用fi∈R3表示目标域中点pi向pi + fi偏移的流向量。注意，我们学习的不是源点和目标点之间的对应关系，而是源点上每个点的流表示。由于潜在的遮挡，源中的某些点可能不会出现在目标框中。我们用二进制标量occi∈{ 0，1 }表示源点pi的遮挡，其中0表示被遮挡，1表示未被遮挡。我们的目标是找到源点中每一点的场景流{ fi } n1i = 1和遮挡标签{ occi } n1i = 1。

4、网络结构

受[ 53 ]架构的启发，我们的网络采用了特征金字塔结构，并使用来自两个不同时间帧的点云作为其输入，其中每个点可以具有丰富的特征向量，如颜色或法线到表面。在本文展示的例子中，我们使用RGB颜色作为我们的输入点特征。网络架构如图2所示。在每个金字塔层级中，我们首先使用上一层的上采样流将目标点云T向源S进行后向弯曲。然后，通过使用来自点云的特征和上一层的上采样遮挡掩膜，我们为S中的每个点构造了代价体。代价体是立体匹配[ 44、37]中广泛使用的概念。它存储逐点匹配代价并度量不同帧之间的相关性。最后，我们利用代价体积、来自S的特征、上采样的流和掩码来预测更精细的流和掩码。

特征金字塔结构。为了提取语义较强的特征用于准确的流和遮挡掩码预测，我们构建了一个4级的特征金字塔，输入在顶层(第0层)。对于每个金字塔层级l，使用最远点采样( FPS ) [ 33 ]对较粗层级( l + 1 )的点云进行下采样。通过Point Conv [ 52 ]操作，为每个降采样点创建并增加特征数量。通过使用其较粗级别(除底层外)的上采样预测对每个级别的流和掩码进行更精细的预测。

warping。在每个金字塔层级上，我们首先利用上一个较粗层级上采样的场景流，对目标点向源点进行后向弯曲。采用与文献[ 53 ]相同的上采样层。由于扭曲层将目标"拉近"到源点，在代价体构建过程中，目标在源点周围的邻域搜索会更加准确。将粗层的上采样流记为{ f up i } n1 i = 1。在翘曲层内部，我们首先做了从源到目标的正向翘曲：

对于目标T中的每一点qj，我们利用上采样流的加权平均来计算其后向流：

其中NSw ( qj )是qj在Sw上的K近邻( k-NN )，权重w( pi , qj) = 1 d( pi , qj)是pi和qj之间欧氏距离的逆。最后，扭曲的目标点将是后向流和自身的逐元素相加：

具有遮挡机制的代价体。传统上，遮挡在二维立体帧的场景流估计中起着至关重要的作用。当涉及到三维点云时，由于物体的运动和相机的位置，遮挡问题仍然存在。由于遮挡点的匹配代价不可得，因此遮挡的主要影响是对代价体的影响。与图像类似，源点云中相对于目标的遮挡可以建模为映射OCCS - T：S→[ 0 , 1]，其中0表示遮挡点，1表示非遮挡点。FlowNet3D [ 23 ]使用流嵌入层来聚合源周围目标中每个邻居的特征和空间关系。由于他们的模型只找到一定半径范围内的邻近点，由于被遮挡点与目标之间的相对位移通常较大，因此对遮挡具有一定的鲁棒性。Point PWCNet [ 53 ]提出了一种新的代价体，可以以基于图像块分割的方式聚合两个输入点云的特征。然而，对于源中的遮挡区域，由于它们在目标帧中不具有对应关系，这种特征聚合操作可能是不正确的。受PWOC - 3D [ 40 ]的启发，我们提出了一种新颖的遮挡机制来帮助构建我们的代价体。

图3：代价体层。对于源中的每个点，我们首先在目标中找到它的k - NN点。然后，我们将相对位移( qj-pi)和邻域的特征( gj )进行分组。在计算出匹配代价后，我们应用遮挡掩蔽和最大池化来构建代价卷。

代价体的关键组成部分之一是匹配代价。它衡量了源点和目标点之间的相似性。由于我们认为点与点之间的相关性与其特征和相对位移高度相关，对于非遮挡点pi，计算pi与qj之间的匹配代价

式中：h ( · )为输入的简单级联，后接1 × 1卷积层，ci和gj分别为pi∈S和qj∈Tw对应的特征。当涉及到遮挡点pi时，由于它们在目标帧中不存在对应关系，我们期望得到匹配代价为0。如图3所示，利用我们定义的遮挡图，我们可以计算出pi与qj的匹配代价：

在我们的例子中，我们使用从其粗层上采样的预测遮挡掩膜作为公式5中的遮挡图。

在计算出匹配成本之后，我们可以将其加总形成成本体量。理论上，我们可以在计算中使用所有可能的( pi , qj)对，但这在计算方面是低效的。借助Warping层，我们可以假设源和目标之间的正确对应点对相对接近。为此，我们只对源中每一点聚合最近目标邻居的匹配代价。可以概括为以下形式：

式中：NT w ( pi )为源点pi在扭曲目标Tw中的最近邻域。

在[ 53 ]的代价体积层，他们使用基于相对距离的可学习的加权和作为聚合函数来计算他们的Point - to - Patch代价。这意味着( pi , qj)之间的匹配代价在CV ( pi )中所占的比例仅取决于它们之间的相对位移( qj-pi)。然而，在许多情况下，点之间的相关性取决于它们的特征而不是它们的相对位移，使用这种聚合设计，正确的对应对可以对代价量有较小的贡献。在我们的工作中，我们决定使用maxpooling来聚合匹配成本。直觉是，为了对流和掩码做出准确的预测，模型需要正确对应对的匹配代价在代价量中具有最高的贡献。使用最大池化可以迫使他们的匹配代价在训练期间在邻域NT w ( pi )中具有最高值。这种设计选择也符合我们上文对匹配成本的定义。综上所述，我们通过下面的公式计算每个点pi的成本体积：

预测层。为了对每个金字塔层级的流和遮挡掩码进行最终预测，我们使用了一个预测层。如图4所示，该层包含一个特征传播模块和两个预测分支。在特征传播模块中，我们首先将其所有输入沿着特征维度进行拼接。然后利用多个Point Conv和多层感知器( MLP )生成最终的特征用于流和掩码预测。特征传播模块的输入为源的特征、上文描述的掩码代价量、上采样流量和上采样遮挡掩码。在特征传播层之后，我们并行地连接一个流量预测器和遮挡预测器。由于我们认为场景流和遮挡是高度相关的，我们决定对两个分支使用共享的输入特征。我们的流量预测器由单个MLP层组成，使得输出张量的维数为( n1 , 3)。与PointPWC - Net [ 53 ]不同的是，我们的流预测器只预测一个残差流向量，使得最终的场景流是上一层的上采样流和源中每个点的残差流的逐元素相加。通过使用这种残差流设计，我们以迭代的方式解决场景流估计问题，我们得到了连续金字塔层级之间更强的相关性。从多尺度流估计转移到多尺度残差显著改善了结果，我们在消融研究中展示了这一点。

图4：预测层。我们的Predictor层接受多个输入并在当前级别生成场景流和遮挡掩码。这些输出将被上采样并作为下一个金字塔层级的输入之一。

对于遮挡分支，我们使用了一个中间带有泄漏ReLU激活的2层MLP来处理输入特征。最后我们还连接了一个sigmoid激活层。这保证了输出是取值在[ 0 , 1]范围内的概率分布。

5、损失函数

我们使用真实场景流和遮挡掩码以监督的方式训练我们的模型。由于现有的具有真实扫描的场景流数据集过小，不利于训练，我们采用了与前期工作[ 23、53]类似的训练方案。我们首先使用FlyingThings3D [ 27 ]的合成数据训练模型，然后使用KITTI [ 29、30]的真实LiDAR数据对模型进行测试。我们在实验部分证明了OGSF - Net对KITTI中未见数据的泛化能力最好。为了同时预测场景流和遮挡图，我们使用两个损失项来训练我们的模型。

场景流损失。我们使用类似于[ 23 ]和[ 53 ]中的损失函数进行流量估计。令f′i为真实流，fi为点pi∈S的预测流.令occ′i为pi的真实遮挡标签，其值在{ 0，1 } .我们对流使用如下的多级损失

式中：Θ为OGSF - Net的可学习参数，Sl为金字塔层级l的采样点云，α l为每一层的权重。内积求和中的第一项惩罚了非遮挡区域估计流量误差的L2范数。由于我们还想预测被遮挡区域的流量，所以我们加入了第二项，它惩罚了每个Sl中所有点的误差，并通过我们的实验提高了性能。

遮挡损失。在每个金字塔层级，我们使用预测的遮挡图来构建我们的掩码代价卷。这意味着准确的掩膜预测对于每一级的流量估计也很重要。令occ′i为真实遮挡标签，occi为点pi∈S的预测标签。我们使用类似的遮挡损失作为流损失：

我们使用的整体损失函数简单地是来自每个金字塔层级的流和遮挡损失的组合：

我们使用λ作为权重来控制流量损失和遮挡损失之间的平衡。

6、实验

在本节中，首先，我们在FlyingThings3D [ 27 ]合成数据集上比较了我们的OGSF - Net与之前工作在多个评价指标上的性能。在没有任何微调的情况下，我们还在KITTI [ 29、30]的真实扫描数据上测试了模型的泛化能力。

表1：Flyingthings3D和Kitti上的表现。表中所有模型均使用8192个点在遮挡的Flyingthings3D上进行训练。我们在没有任何微调的情况下，使用每帧8192个点在KITTI (有遮挡)上进行测试。值得注意的是，我们大大优于所有其他方法。在最后一列，我们也给出了我们对KITTI的微调结果。

通过对KITTI的进一步微调，我们展示了结果的改进，并展示了KITTI的可视化。在之前的工作中，已经提出了FlyingThings3D和KITTI两个版本。第一种是由文献[ 13 ]提出的，从处理后的点云中去除遮挡点，Flyingthings3D中许多困难的例子已经被移除。第二个版本由Flow Net3D [ 23 ]提出。保留遮挡区域并提供FlyingThings3D的遮挡图。由于我们的工作与遮挡高度相关，我们采用了文献[ 23 ]提出的FlyingThings3D和KITTI，这比第一个版本更具挑战性。其次，在消融研究中，我们测试了我们的设计选择，并展示了我们工作中所有新颖组件的有效性。最后，我们评估了我们的遮挡估计。据我们所知，我们是第一个评估遮挡对点云场景流估计的影响。我们在这里展示了与以前报道的方法相比的最新结果。

评价指标。我们首先采用[ 13,23,53,31]中使用的四种评价指标：平均端点误差( EPE )；两种不同阈值的EPE精度测量；EPE上具有阈值的异常值比率。在[ 23、31]中，上述指标仅在非遮挡点上进行评估，而在我们的工作中，我们对所有点进行评估，包括遮挡点和非遮挡点。评价指标的具体内容如下：

实施细节。我们的OGSF - Net使用与[ 53 ]相同的特征金字塔结构来处理输入点云，而我们在每个降采样点云中使用的点数是[ 2048、512、256、128]。我们选取方程中的权重α。8得α = [ αl ] l3 = 0 = [ 0.02、0.04、0.08、0.16]。式中权重β。9设定每个金字塔层级l的β l = 1.4 α l。设每个层次的特征数d为[ 64、96、192、320]，每个层次的dcv为[ 32、64、128、256]。所有超参数根据Flyingthings3D的验证集选取。我们使用2 × GTX2080Ti GPU在FlyingThings3D上训练我们的模型，批量大小为8和120个训练历元，训练时间为一天。我们以0.001的学习速率开始，每10个历元后以0.85的衰减速率将其减小。我们进一步将75个历元后的衰减率降低到0.8。初始平衡权重λ为0.3。为了提高遮挡精度，在前45个历元将λ逐渐增大到0.6。

图5：KITTI Scene Flow2015可视化。对于左边的图像，我们在对齐之前将源(红色)和目标(蓝色)点云显示在同一3D空间上。对于右边的图像，我们使用OGSF - Net (源+场景流)的预测流将源对齐到目标。显示了用黑色圈出的区域的放大视图。我们还提供了被绿色环绕的区域的预测遮挡图的放大细节。可以看出，我们的OGSF - Net可以正确预测遮挡点(黑色)和非遮挡点(红色)的地图，也可以准确估计遮挡和非遮挡区域的流量。

6.1 在Flyingthings3D上评估

由于从真实场景中获取稠密流和遮挡掩码比较困难，据我们所知，目前还没有公开的具有真实流和掩码的真实世界大规模场景数据集。因此，通过遵循[ 23、31、53、13]中类似的评估过程，我们在合成的FlyingThings3D [ 27 ]数据集上训练了我们的模型。如前所述，我们使用与文献[ 23 ]相同的数据集，它包含了20000对训练集中的点云和2000对测试集中的点云。

由于该数据集中同时提供了真实场景流和遮挡掩码，我们使用式( 10 )中的损失函数来训练我们的模型。

具体比较结果见表1。我们将我们的模型与之前最先进的点云场景流估计方法进行了比较。所有方法均在文献[ 23 ]提出的Flyingthings3D上进行训练，每个点云使用n1 = n2 = 8192个点进行训练和评估。可以看出，我们的方法在所有评价指标上都优于之前的工作。正如相关工作中提到的，当将表1中的数字与自己论文中报告的结果进行对比时，可以看到由于输入中存在遮挡，[ 53,13]的性能严重下降。值得注意的是，FlowNet3D [ 23 ]和FLOT [ 31 ]的性能在EPE上是可以接受的，但是在EPE full上表现较差。这是因为他们在损失函数中去除了遮挡区域的误差，并且不能预测遮挡点的流量。

图6：Flyingthings3D上的流动/遮挡可视化。以Flyingthings3D测试集为例，a )展示了源(红色)和目标(蓝色)帧，b )和c )展示了基于真实值和预测流的对齐结果，d )和e )展示了真实值和预测遮挡图，其中非遮挡区域用红色标记，遮挡区域用黑色标记。

6.2 在KITTI上评估

为了测试模型在真实场景中的泛化能力，我们首先在Flyingthings3D上训练模型，然后在KITTI Scene Flow 2015 [ 29、30]中所有150个n1 = n2 = 8192点的实例上进行测试，没有进行任何微调。由于它们没有提供源的地面真值遮挡图，我们无法评估KITTI上的EPE。

如表1所示，与之前的工作相比，我们的模型具有最好的泛化能力。在表1的最后一行，我们将数据拆分为100个训练样本进行微调，50个样本进行测试，我们展示了性能的进一步提升。由于没有真值遮挡掩膜，我们仅使用∑αl∑∥∥fi-f′i∥∥∥2 (弗洛斯第二项( Θ )) )作为损失函数进行微调。

表2：模型设计的消融研究。( a )我们展示了不同的设计选择组合，我们的可以得到最好的性能。( b )通过有遮挡的训练，我们可以在KITTI的真实扫描上得到更好的泛化。

6.3 消融实验

我们进行了一些消融研究来验证我们模型的设计选择、遮挡引导机制和损失函数。在表2 ( a )中，我们报告了Flyingthings3D数据集上不同设计选择组合的EPE。当我们在Cost Volume层使用最大池化对匹配成本进行加总时，我们得到了显著更优的EPE。通过进一步使用我们的残差流预测设计代替全场景流预测，我们获得了19 %的性能提升。在最后两行中，我们展示了通过使用遮挡估计机制，我们的模型在遮挡数据集上的性能有了很大的提升。在表2 ( b )中，我们使用不同的损失函数来训练我们的模型，并在Flyingthings3D和KITTI上分别给出了EPE和EPEful。如下面一行所示，OGSF - Net可以通过有遮挡损失的训练来区分遮挡区域和非遮挡区域。改进了Flyingthings3D上的性能，并在KITTI上获得了更好的泛化能力。

表3：异常值比率。我们测量了不同阈值下的异常值比率。我们只将我们的模型与FlowNet3D和FLOT进行了比较，因为它们是他们工作中唯一使用遮挡数据进行训练和测试的模型。

6.4 遮挡估计

准确的遮挡预测对于我们的遮挡引导机制很重要，对于一些应用如3D物体重建也很重要。在本节中，我们仅评估Flyingthings3D上遮挡估计的性能，因为点云上没有其他公开数据集提供地面真实遮挡掩膜。我们使用标准的遮挡估计指标，准确率和F1值，作为我们的评估指标。我们首先使用阈值0.5将预测的遮挡概率转换为标签{ 0，1 }。然后，我们对这两个指标进行测量，分别得到94.91 %和0.824。我们还在图5和图6中展示了遮挡估计结果的一些可视化。

6.5 异常值比率

在场景流估计中，异常值比率作为衡量模型鲁棒性的重要指标。在表3中，我们展示了KITTI Scene Flow 2015 [ 29、30]在不同模型下不同阈值的离群率。我们通过简单地找到EPEful大于给定阈值的点的百分比来计算该比率。正如我们所看到的，[ 31 ]和我们的算法的性能远远优于[ 23 ]。对于0.1 ~ 0.5的所有阈值，与Flow Net3D [ 23 ]和FLOT [ 31 ]相比，我们的模型具有最小的异常值率。

7、结论

本文提出了一种深度神经网络OGSF - Net，可以直接从点云数据中联合估计场景流和遮挡图。我们首次在点云场景流估计上引入遮挡估计的思想，并通过在Cost Volume层内部使用我们的掩膜操作，显著提升了流精度。我们的遮挡引导的流估计不仅提供了额外的信息层，而且在多个数据集和不同的度量标准上都大大优于以前报道的最先进的模型。