[论文翻译]FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds

最新推荐文章于 2024-10-16 10:08:57 发布

Javier.Lin_HUST

最新推荐文章于 2024-10-16 10:08:57 发布

阅读量280

点赞数 1

分类专栏：场景流 3D点云文章标签：深度学习人工智能计算机视觉 3d 神经网络

本文链接：https://blog.csdn.net/qq_40279050/article/details/129748712

版权

3D点云同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

本文提出了一种名为FESTA的新方法，用于从点云数据中估计三维场景流。FESTA利用空间注意力抽象(SA2)层稳定点云采样，并通过时间注意力抽象(TA2)层改进运动覆盖，适应不同尺度的运动。实验结果显示，FESTA在场景流估计任务上超越了现有方法，特别是在处理大尺度和小尺度运动方面表现优越。

摘要由CSDN通过智能技术生成

论文翻译：

FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds

摘要：

场景流描述了三维场景的动态，对于自动驾驶、机器人导航、AR / VR等应用至关重要。传统上，场景流是从稠密/规则的RGB视频帧中估计的。随着深度感知技术的发展，通过点云进行精确的三维测量已经引起了三维场景流的新研究。然而，由于典型点云采样模式的稀疏性和不规则性，从点云中提取场景流仍然具有挑战性。与不规则采样相关的一个主要问题是点集提取/特征提取过程中的随机性，这是许多流量估计场景中的一个基本过程。为了缓解这种不稳定的抽象问题，提出了一种新的带注意力的空间抽象( SA2 )层。此外，本文还提出了一个带注意力的时域抽象( TA2 )层来校正时域上的注意力，从而使运动在更大范围内伸缩。大量的分析和实验验证了我们的方法，即通过时空注意力的流估计( FESTA )，与几个最先进的场景流估计基准相比，其动机和显著的性能增益。

图1：给定两个连续的点云，( a )最远点采样( FPS ,深红色)产生的下采样点不同，使得它们在场景流估计中难以处理。然而，通过添加我们的( c )聚合池( Aggregate Pooling，AP )，合成稳定的对应点(蓝色)用于场景流估计。

1、引言

我们的世界是动态的。为了及时预测和应对不断变化的环境，人类能够感知一个移动的场景并得到单个物体的三维运动。这种从场景动态中捕获和推断的能力对于计算机视觉应用也是可取的。例如，无人驾驶汽车在感知周围环境中的运动时可以操纵其动作[ 19 ]；而机器人则可以利用场景的动态性来方便其定位和建图过程[ 2 ]。此外，随着深度感知技术的发展，特别是激光雷达技术的发展[ 7 ]，点云数据已成为此类应用中的常用配置。

为了描述3D世界中单个点的运动，场景流将2D光流扩展到3D向量场中表示3D场景动力学[ 28 ]。因此，正如2D光流需要从包含图像[ 31、10]的视频帧中估计一样，3D场景流需要从点云数据中推断[ 9 ]。然而，从点云中准确估计场景流并非易事。

Unstable abstraction: 以PointNet[ 25 ]及其扩展PointNet+ + [ 26 ]为首的深度神经网络( Deep Neural Networks，DNNs )最近被允许直接消费三维点云用于各种视觉任务。如图1a和图1b所示，在特征提取过程中，基于最远点采样( FPS )的分组被广泛使用。它被视为分割和场景流估计的基本点集抽象单元，如FlowNet3D [ 16 ]和MeteorNet [ 17 ]。初始形式的FPS简单且计算量小，但存在问题。给定两个表示同一流形的物体点云，FPS很可能对它们进行不同的下采样[ 21 ] (见图1a)。这种由随机性导致的不一致性对于视觉和机器任务来说是不可取的。对于两个不同的下采样点云，后续的分组和抽象会导致两个不同的局部特征集合。因此，在比较FPS提取的特征时，估计场景流变得困难。

为了解决这个问题，我们提出了一种注意力空间抽象( Spatial Abstraction with Attention，SA2 )层，该层自适应地对输入点云进行降采样和抽象。与FPS相比，我们的SA2层使用可训练的聚合池( Aggregate Pooling，AP )模块来生成更稳定的下采样点，如图1c中的蓝色点。它们定义参与区域[ 6 ] (例如,图1d中的绿色圆圈)用于后续处理。

Motion coverage:与许多用于立体匹配和光流估计的深度匹配算法类似，很难有单一的DNN能够同时准确估计大尺度运动和小尺度运动[ 11、23]。为了解决这个问题，我们提出了一个带注意力的时间抽象( TA2 )层来迭代网络进行流细化。它根据第1次迭代得到的初始场景流，将时间关注区域转移到更对应的区域。

总之，我们在空间上从一个点云中进行抽象时，以及在时间上跨两个点云进行信息融合时，自适应地移动关注区域。我们将我们的建议命名为"基于时空注意力的流估计"，简称FESTA。本文的主要贡献如下：

( i )提出了用于稳定点云提取的SA2层。它将FPS下采样点移动到不变位置以定义关注区域，而不管点云是如何从场景流形中采样的。从理论和实证两方面验证了SA2层的有效性。

( ii )我们提出了TA2层来估计小尺度和大尺度运动。它强调点云之间更容易找到良好匹配的区域，而不管运动的尺度如何。

( iii )我们提出的FESTA架构在合成基准和真实世界基准上都达到了三维点云场景流估计的最新性能。我们的方法显著优于最先进的场景流估计方法。

2、相关工作

最近关于场景流估计的研究主要将二维光流估计方法扩展到三维点云。我们首先回顾了光流估计的相关研究[ 27 ]，然后转向用于点云处理和场景流估计的深度学习方法。

光流估计：光流估计及其变体，立体匹配，都是在给定一对二维图像的情况下寻找像素级的对应关系。尽管传统上使用手工方法来解决，但最近基于端到端DNN的提案取得了前所未有的性能。在这些方法中，FlowNet [ 4、18]是第一个尝试，它采用了流行的带跳跃连接的漏斗结构。这种基本的DNN架构对于在图像[ 34、3 ]上寻找对应关系非常成功。甚至扩展到3D点云进行场景流估计，如FlowNet3D [ 16 ]和HPLFlowNet [ 8 ]。然而，使用一个漏斗架构很难同时估计小尺度和大尺度运动。随后的工作Flow Net2 [ 11 ]以更大的模型为代价，堆叠独立的Flow Net模块来提升性能。不同的是，我们用TA2层来解决这个问题，它有效地重用了网络的一部分进行精化。

点云上的深度学习：通常对点云数据进行预处理，如体素化，以符合常规图像/视频的深度学习框架。新兴的点云本地化学习技术缓解了这种格式转换的需求。开创性的工作PointNet[ 25 ]直接对输入点进行操作，并产生描述物体几何形状的特征。学习到的特征通过池化操作实现点置换不变性。PointNet+ + [ 30 ]应用FPS，然后通过最近邻( NN )分组和PointNet来抽象输入点云。这一抽象步骤已经成为一种流行的基本单元来消化点云。最近的工作，如[ 35、22、15]，为抽象步骤提出了复杂的DNN架构；而我们的SA2层是一个轻量级模块，服务于同样的目的。此外，这些工作通过从点云中选择现有的点来限制自己而。

场景流估计：三维场景流估计任务最早由Vedula等[ 28 ]提出。它通常由RGB - D视频[ 31 ]或立体视频[ 10 ]估计。只有随着深度学习的出现，才使得直接在点云数据上进行三维场景流估计问题成为可能[ 9 ]。

Flow Net3D [ 16 ]是第一个直接从三维点云数据中学习场景流的工作。它将Flow Net [ 4 ]架构从二维图像域(随着卷积神经网络) "转换"为点云数据(带有点网络)。后续工作Flow Net3D + + [ 26 ]通过显式地监督流量向量的大小和方向来提高性能；而最近提出的PointPWC - Net [ 32 ]通过融合分层点云特征，以由粗到精的方式估计场景流。其他值得注意的方法包括HPLFlowNet [ 8 ]，利用正八面体格的概念[ 1 ]来提取结构信息[ 20 ]，这是一种自监督的方法。然而，大多数工作将FPS应用于输入点云的降采样，并引入如前所述的不稳定抽象问题。相比之下，我们提出了SA2层来检索不变的下采样点，这大大有利于后续的匹配过程。

图2：我们提出的FESTA架构。在FlowNet / FlowNet3D主干之上，我们特别地将时空机制与提出的SA2和TA2层结合起来。

3、框架概述

3.1 结构设计

我们提出的FESTA架构如图2所示，它沿用了FlowNet3D [ 16 ]和FlowNet [ 4 ]的主干结构，具有沙漏结构。网络层产生的每个特征由一个具有代表性的点和一个局部描述符组成，例如，注意力空间抽象( SA2 )层为第一个点云生成n1 / 8个这样的特征。给定两个输入点云，它们分别被共享的SA2层消耗以提取两组特征，我们称之为空间特征。然后提出了一个带注意力的时间抽象( TA2 )层作为耦合模块，以第一个点云作为参考，融合空间特征。它的输出是另一组特征，我们称之为时间特征。与空间特征不同，时间特征融合了两种点云的信息，可以从中提取三维场景流。之后，在FlowNet3D [ 16 ]中添加若干个Set Abstraction层和Set Up - Conv层来消化时序特征，完成沙漏结构。最后一个Set Up - Conv层的输出是一组点特征，与第一个点云中的每个点相关联。为了提取逐点场景流，我们只需使用共享的MLP层将每个逐点特征转换为场景流向量。

受文献[ 12 ]的启发，我们还估计了一个二进制掩码，表示第一个点云中每个点都存在场景流向量。在实际应用中，由于遮挡、视场外运动等原因，场景流矢量可能无法获取。表明它们的存在可能作为辅助信息帮助后续任务。类似于3D场景流的计算，应用专用的MLP层将逐点特征转换为存在掩码。

为了提高场景流估计精度，特别是处理所有范围的运动，我们通过反馈连接部分地重复我们的网络。虽然可以多次迭代运行TA2，但是我们发现，两次运行TA2在计算代价和估计精度之间取得了很好的折中。值得注意的是，与[ 16 ]类似，我们的FESTA架构可以很容易地适应以额外的属性(例如, RGB颜色)作为输入。关于我们建筑的更多细节，请参考补充材料。

3.2 损失函数设计

为了以端到端的方式有效地训练所提出的FESTA，我们对两个迭代输出进行了地面真值流评估。对于每一次迭代，我们首先计算真实场景流和估计场景流之间的损失' 2 [ 16 ]。这个损失记为L ( i ) F，i为迭代指数。然后，将存在性掩膜估计问题转化为点二分类问题[ 12 ]，根据真实存在性掩膜计算交叉熵损失，记为L ( i ) M。第i次迭代的损失最终由：

我们的端到端训练的总损失聚合了两次迭代的损失，即，

注意到( 1 )式和( 2 )式中，超参数μ，λ∈[ 0 , 1]。经验上，我们设定μ = 0.8和λ = 0.7。

图3：聚合池( Aggregate Pooling，AP )模块框图

4、时空注意力

4.1 具有注意力的空间抽象

SA2层的设计：我们提出的SA2层的关键步骤如图1所示。最远点采样( Farthest Point Sampling，FPS )和最近邻( Nearest Neighbor，NN )分组(图1a、图1b)继承自PointNet + + [ 26 ]，作为初始步骤对点云进行分组。然而，如第1节所述，单纯的基于FPS的抽象会产生不稳定的下采样点，从而篡改场景流估计。

在这里，抽象的设计是为了反映流形M的内在几何结构，即对采样模式中的随机性具有不变性。在本工作中，我们通过提出一个聚合池( Aggregate Pooling，AP )模块来实现这一目标。在FPS分组后，使用合成点对点集进行降采样(图1c )。然后，每个新的下采样点通过另一个NN分组步骤定义自己的关注区域，从而导致一个新的分组方案更适合后续的逐点任务(图1d )，即场景流估计。类似于PointNet+ + [ 26 ]，最后我们将新的点组馈送给一个共享的PointNet来提取它们的局部描述符。描述符和相关的下采样点构成了SA2层的输出，即空间特征。如图2中SA2层产生的n18 × 67矩阵。

聚合池化：提出的AP模块消耗一组k个点，并生成一个合成点来表示整个组。如图3所示，它由一个PointNet[ 25 ]和一个点聚集步骤组成。PointNet使用MLPs计算k个点级描述子，使用最大池化算子计算一个组级描述子。该PointNet在点云中的所有组点之间共享。然后，点聚合步骤计算组内所有点的加权平均值来合成一个代表点。

具体来说，点聚合步骤通过点级描述符(用fi表示)和组级描述符(用fg表示)之间的相似性来衡量点(第i个点)在组内的代表性。在衡量向量相似度(例如,欧氏距离、相关系数等)的不同方法中，为了简单起见，我们选择类似[ 29 ]的点积度量。然后将得到的亲和度值传递给softmax函数进行归一化，从而得到一组总和为1的权重。数学上，第i点的权重wi为

设组内点为si = ( xi , yi , zi)，1≤i≤k，则合成点为∑k i = 1 wi · si .

分析：现在我们试图理解SA2层产生更多稳定点的机制。利用FPS和分组步骤(图1a和图1b)，我们得到了来自输入点云对的两个点集列表。我们首先关注通过相同的采样概率分布p ( s )在同一个黎曼流形片M上采样的两个列表中的一对点集。每个点集由AP模块处理。

给定表征几何M的两个点集中足够多的点，它们的群级描述子应该相似[ 25 ]，记为fg。特别地，如果按照p从M中采样越来越多的3D点，那么根据定义，来自两组的合成点收敛到M上的如下积分[ 14 ]

式中：f ( s )为点s的点级描述子，函数w ( · )将点积测度f ( s ) Tfg按式( 3 )转换为权重，α =∫M w ( f ( s ) Tfg ) p ( s ) ds为归一化因子。更详细的分析请参考补充材料。

由于AP模块在M上收敛到一个固定的位置s′，因此SA2层期望在一个点云场景上收敛。第5.1节将通过一个分割实验提供经验证据。

最后，由于权重w ( f ( s ) Tfg )由一个可学习的网络计算，SA2层通过生成新颖的、任务感知的下采样点来适应下游任务。

图4：TA2层的两次迭代。左边的蓝色圆圈表示第1次迭代的关注区域，这对于点的对应是不准确的。右边的绿色圆通过第1次迭代中估计的初始流将关注区域拖动到对应的区域。

4.2 带有注意力的时间抽象

Ta2层的机制：TA2层的目的是在给定初始场景流的情况下，聚合两个点云的空间特征。在未呈现初始场景流的第1次迭代过程中，其表现与FlowNet3D中的Flow Embedding层相同[ 16 ]。具体来说，对于第1个降采样点云中的每个点(说, A)，首先从第2个点云中执行一个NN分组步骤，从第2个点云中形成一组点(以A为中心)，如图4左图所示。然后将分组后的点，即点A及其关联描述符，发送给后续的PointNet提取另一个局部描述符。这个提取步骤的更多细节可以在[ 16 ]中找到。降采样后的点云与新的描述子构成时序特征，如图2中TA2层产生的n1 8 × 131矩阵。

在第二轮迭代中，我们重用了SA2层在第一轮迭代中生成的空间特征，并将其反馈给TA2层(图2 )。然而，现在有了与第一个降采样点云对应的初始场景流，我们根据每个场景流向量平移搜索区域。具体地，设A的坐标为( xA , yA , zA)，其初始场景流向量为( uA、vA、wA)，以( xA + uA , yA + vA , zA + wA)为中心进行NN分组，见图4右图。需要注意的是，对于第一次下采样的点云，要获得初始的场景流，需要额外的插值步骤，即图2中的Flow插值模块。我们将其实现为一个简单的确定性模块，不需要训练参数。为了估计某一点的场景流向量，计算该点邻域内的平均场景流向量。详情参见补充材料。

分析：直觉上，NN分组步长搜索第2个点云中"看起来接近" A的所有点；其搜索范围定义了关注区域(图4中的蓝色圆圈)。通过只估计一个通道内的场景流，需要为所有运动范围选择一个通用的搜索半径。然而，当被关注区域(或者等价地,图4中的搜索半径r1)过小时，无法捕捉大尺度运动；而对于较大的参与区域或较大的r1，包含过多的来自第二个点云的候选区域，不利于估计(特别是对于小尺度运动)的粒度。该问题一般不仅存在于场景流估计中，还存在于立体匹配[ 23 ]、光流估计[ 11 ]等相关问题中。

通过引入第二次迭代，我们的TA2层相应地将关注区域从第二个点云转移到更有可能观察到良好匹配的自信区域。因此，对于第一次迭代，确定一个"正确"的方向比确定一个"正确"的结果更加关键。体现在超参数λ = 0.7的选取上。此外，随着对第二个点云如何移动的粗略了解，在第二次迭代(或图4中的半径r2)时的关注区域可以进一步缩小以搜索更精细的匹配候选。

图5：与FPS相比，我们的方案生成了更稳定的下采样点云。

5、实验

本节首先验证SA2层如何作为稳定的点云抽象单元。然后对提出的FESTA架构进行三维场景流估计评估。最后，我们通过消融研究来检验关键组件如何对FESTA框架做出贡献。

5.1 用SA2层抽象

所提出的SA2层一般提供了一种替代FPS类方法的抽象。如4.1节所述，需要明确研究其稳定性。在这个测试中，我们设计了一个专门的对象分割过程，因为如果与FESTA框架相比，这个点任务比抽象的额外过程最少。值得注意的是，分割作为一个测试床来验证SA2的稳定性，而不是要求最先进的分割。

设置：我们使用ModelNet40 [ 33 ]中的物体点云构建了一个场景点云数据集。该场景点云数据集包含104个场景；每个场景包含3到6个物体，这些物体被封装在半径为3的球形容器中。此外，场景中的所有物体都在半径为r的球面内进行归一化，并且它们的物体中心之间至少有2个距离。显然，通过放大半径r较大的物体，它们更有可能相互碰撞，使得区分和分割物体变得更加困难。我们准备了4个版本的场景点云数据集，不同物体半径r的取值范围为1 ~ 1.8。我们的目标分割网络建立在Point Net + + [ 26 ]的基础上，用我们提出的SA2层代替FPS分组。

抽象稳定性：我们首先使用数据集半径r = 1.2的上述分割框架评估了我们的下采样点云的稳定性。给定我们的多目标数据集中的一个场景，我们从其中随机挑选n∈[ 256 , 2048]个点进行100次不同的处理，得到100个代表同一三维场景的输入点云。然后我们将这些点云作为输入输入到基于FPS和基于SA2的分割网络中，以获得只包含64个点的下采样点集。对于一个稳定的下采样过程，100个点云的下采样结果应该是相似的。为了评估相似性，我们计算任意两个下采样点云之间的倒角距离( Chamfer Distances，CD ) [ 5 ]，然后取平均值来表征稳定性。较小的平均CD意味着更稳定的降采样。从我们的数据集中随机选择30个场景进行进一步平均。最后，如图5所示，SA2总是比FPS产生更稳定的下采样结果。特别地，对于n > 1000，我们的方法甚至将FPS的平均CD降低了约50 %，这证实了所提出的SA2层的优异稳定性。SA2图也验证了4.1节的分析，表明随着采样密度的增加，下采样点变得更加稳定。

图6：FPS (红色)和我们的SA2层(蓝色)用于目标分割任务的下采样点。

表1：对象分割精度( % )。

评价：在对SA2层进行测试后，我们转而了解其稳定的抽象如何有利于分割性能。基于FPS和SA2层，使用交叉熵损失在数据集(物体半径r从1到1.8不等)的所有4个版本上训练两个分割网络。表1比较了基于SA 2和基于FPS的分割方法Point Net + +的分割性能，可以看出，SA 2始终具有较高的分割精度。随着分割难度的增加，我们的方法比Point Net + +有更大的提升，例如当r = 1.8时，我们的准确率比Point Net + +提高了26 %。

我们在图6中展示了场景点云的下采样点，其中灰色点描述了输入点云；而红色点和蓝色点分别是FPS和SA2采样的点。得益于前面验证的稳定抽象，SA2层一致地生成属于不同对象的点，并且对象之间表现出更清晰的分离，这对于分割来说是高度优先的。

5.2 用FESTA来估计场景流

结合SA2和TA2层，我们评估了提出的用于场景流估计的FESTA架构。

Datasets:本文的实验在两个流行的数据集FlyingThings3D [ 18 ]和KITTI Scene Flow [ 7 ] (简称KITTI)数据集上进行。两者最初都是针对图像域(例如,立体匹配)中的匹配任务而设计的。最近，Liu等[ 16 ]将其转换为三维点云的场景流估计。FlyingThings3D数据集是一个合成数据集，分别有20000和2000个点云对用于训练和测试。除了点云几何，RGB颜色和二进制存在掩码也是可用的。与FlyingThings3D不同，KITTI是LiDAR传感器采集的真实数据集，包含不完整的地物。KITTI数据集有150个点云对，有可用的地面-真实感场景流。与[ 16、8]等类似，在计算三维场景流时，我们只使用几何(点坐标)。

Benchmarks and evaluation metrics:我们将FESTA与下列方法进行了比较：FlowNet3D [ 16 ]，HPLFlowNet [ 8 ]，PointPWCNet [ 32 ]，MeteorNet [ 16 ]，FlowNet3D + + [ 30 ]，以及自监督方法Just Go with the Flow [ 20 ]。首先使用终点误差( End-Point-Error，EPE )评价场景流量质量，EPE计算地面真值流量与预测的平均欧氏距离。我们还采用了文献[ 8 ]中的两个额外的度量指标，Acc严格和Acc Relax。1 Acc严格和Acc Relax都是为了度量估计精度，但是阈值不同。Acc严格测量满足EPE < 0.05 m或相对误差< 5 %的点的百分比；而Acc Relax度量的是EPE < 0.1 m或相对误差< 10 %的点的百分比。

实现细节：所提出的FESTA在FlyingThings3D数据集上按照FlowNet3D [ 16 ]的两种配置进行训练，仅使用几何属性和附加RGB属性。两种配置均使用Adam优化器[ 13 ]训练500个历元，批量大小为32，学习速率为0.001。输入点云的大小均设置为2048。所有实验均在PyTorch [ 24 ]框架下进行。对于纯几何构型，在FlyingThings3D和KITTI上进行推理。换句话说，该模型从未在KITTI上调优过，类似地，在[ 16、8]等人中也是如此。在具备RGB属性的情况下，在FlyingThing3D上进行推理。进行定量和定性评价。

表2：在FlyingThings3D和KITTI数据集上的定量评估

量化结果：定量结果报告在表2中，其中提出的FESTA一致优于具有显著增益的竞争方法。例如，对于仅针对几何体的Acc严格值，我们的FESTA比最先进的方法Point PWC - Net在FlyingThings3D上提高了5.3 %，在KITTI上提高了8.9 %；与我们的主干FlowNet3D相比，FlyingThings3D提高了15.8 %，KITTI提高了26.3 %。令人鼓舞的是，当在FlyingThings3D上检查包含和不包含RGB的配置时，我们注意到在大多数情况下，单独使用几何体时，我们的FESTA超过了竞争对手，即使他们使用额外的RGB属性。例如，我们的FESTA (只有几何图形)的EPE为0.1253，低于FlowNet + + (几何图形+ RGB )的0.1369。

表3：模型规模和运行时间评价。F. - Flownet3D [ 16 ]；H . - Hplflownet [ 8 ]；P . - Pointpwc - net [ 32 ]。

我们将我们的模型大小和运行时间与具有代表性的方法进行比较，并在表3中报告，其中运行时间是在具有11 GB内存的Nvidia GTX 1080 Ti GPU上评估的。我们确认我们的优越性能是通过一个大小为16.1 MB的模型实现的，类似于FlowNet3D的14.9 MB。它远小于其他竞争方法PointPWC - Net和HPLFlowNet。此外，通过移除TA2，我们获得了与FlowNet3D相似的运行时间，但仍将其EPE从0.1705 (表2 )大幅降低到0.1381 (烧蚀研究见表4)。

图7：FlyingThings3D数据集上第1个点云(红色)，第2个点云 (绿色)之间的场景流估计。我们提出的FESTA架构的结果以被场景流扭曲的点云 (蓝色) - 第1个点云显示。

图8：KITTI数据集上第1个点云 (红色)，第2个点云 (绿色)之间的场景流估计。我们提出的FESTA架构的结果以被场景流扭曲的点云 (蓝色) - 第1个点云显示。

定性评价：FESTA得到的场景流可视化结果如图7 ( FlyingThings3D )和图8 ( KITTI )所示。为了更好的说明，选定的部分被放大。在每个实例中，红色点和绿色点分别代表第一个和第二个点云框架。蓝色点表示扭曲的点云，根据估计的场景流向量，通过平移第一个点云中的每个点生成。有了更精确的场景流矢量，扭曲后的点云与第二个点云重叠得更多。可以看到，对于图7，8中的所有情况，我们预测的场景流都会产生与第二个点云高度重叠的扭曲点云。这肯定了我们提出的FESTA在场景流估计上的有效性。提醒我们的网络从未观察到来自KITTI数据集的任何数据；然而，它仍然成功地推广到KITTI，并且仅仅基于点坐标来捕捉动力学。

表4：FESTA不同变体的评价。

5.3 消融实验

消融研究仅在几何构型下进行。我们研究了FESTA架构中各个组件的优势。具体地，我们考虑以下三种变体：

( i )在PointNet + + [ 26 ] (或者Flow Net3D )中将SA2层替换为简单的FPS分组并进行特征提取；

( ii )将TA2层替换为FlowNet3D中的Flow Embedding层，即去掉第2次迭代；

( iii )删除存在掩码的输出，即网络仅在三维场景流上进行训练。

表4报告了FESTA的上述变体的性能。表现最好和最差的指标分别用粗体和下划线突出显示。我们看到SA2和TA2层都给我们的模型带来了很大的增益；但总体而言，SA2层的效果略优于TA2层。此外，通过联合估计一个额外的存在性掩码，我们的场景流质量进一步提高。这是因为真实存在掩码提供了关于运动的额外线索[ 12 ]，监督网络更精确地捕获动力学。

图9：对于不同震级的地震动，FESTA的变体表现不同。

此外，我们进一步研究了SA2和TA2层在不同尺度下对运动估计的影响。具体来说，我们根据FlyingThings3D测试集中的3D点的地-真流矢量大小进行分类。对于每个场景流大小的面元，我们计算FESTA得到的相对误差的平均值，并统计面元大小。通过这种方式，我们绘制了FESTA在不同场景流量量级上的相对误差曲线(绿色)，如图9所示。我们同样将不含SA2和TA2的变体分别用蓝色和红色绘制曲线。

通过对比红色和绿色曲线，我们看到TA2层大大提高了大尺度运动的性能，这是预期的，因为TA2直接根据初始场景流移动其关注区域。不同的是，SA2层有利于较小量级的场景流。这是因为SA2层能够轻柔地调整其关注区域- -输入点群的凸包( 4.1节)，这增强了估计的粒度，主要有利于小规模运动。

6、总结

我们提出了一种新的时空注意力机制来从点云中估计三维场景流。我们提出的基于时空注意力的流估计算法( FESTA )的有效性已经被我们最新的大量实验证明。本质上，我们的时空注意力机制基于早期试次的反馈成功地修正了感兴趣区域( Region of Interest，RoI )。其原理类似于利用注意力机制的现有文献，例如[ 6 ]用于图像识别和[ 36 ]用于句子建模。在未来的研究中，我们计划研究SA2和TA2层在不同点云处理任务中的潜力，如分类、配准和压缩。