[论文简述+翻译]Bi-PointFlowNet: Bidirectional Learning for Point Cloud Based Scene Flow Estimation

最新推荐文章于 2023-03-30 19:09:12 发布

Javier.Lin_HUST

最新推荐文章于 2023-03-30 19:09:12 发布

阅读量550

点赞数 1

分类专栏：场景流 3D点云文章标签：深度学习计算机视觉人工智能 3d 神经网络 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_40279050/article/details/129317665

版权

3D点云同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

场景流

19 篇文章 5 订阅

订阅专栏

文章介绍了一种名为Bi-PointFlowNet的新型网络，用于三维场景流估计。该网络通过双向流嵌入层增强上下文信息的利用，减少了计算开销。在FlyingThings3D和KITTI数据集上的实验表明，Bi-PointFlowNet在非遮挡和遮挡条件下都显著优于现有方法，并具有较高的时间效率，适合资源有限的设备应用。

摘要由CSDN通过智能技术生成

论文简述

第一作者：Wencan Cheng

发表年份：2022

发表期刊：Europeon Conference on Computer Vision（ECCV）

探索动机：1、如何更好的利用上下文信息。2、如何减少计算开销

工作目标：1、增强上下文信息的利用。2、减少计算开销

核心思想：

1、提出了一种新颖的双向流嵌入( BFE )层，提供了丰富的上下文信息。

2、提出了一种分解形式的BFE。用于减少计算开销

实现方法：1、BFE层首先通过双向特征传播( BFP )模块生成双向增强特征表示，如图3所示。然后，按照传统的流嵌入( FE )层提取相关嵌入进行流回归。2、首先，将MLP权重W分解为3个子权重：局部位置编码权重Wp∈R3 × C′，双向传播特征权重Wb∈RC × C′，复制特征权重Wr∈RC × C′。Wb和Wr在分组前同时在P和Q处执行，从而形成变换后的特征Wbfi、Wbgj、Wrfi和Wrgj。然后提供这些变换后的特征及其对应的坐标用于分组。之后，仅使用Wp进行分组局部坐标转换。最后，我们简单地将变换后的局部坐标与变换后的特征相加并应用激活函数。

实验结论：我们提出了Bi - Point FlowNet，用于精确快速的场景流估计。我们提出的网络利用了一个新颖的双向流嵌入模块，该模块通过分层特征提取和传播来准确地估计流量。为了进一步加速推理，所提方法应用了双向流嵌入层的分解形式，去除了冗余计算。在两个具有挑战性的数据集上的实验结果表明，我们的网络在非遮挡和遮挡条件下都显著优于先前的先进方法。所提出的模型还表现出优异的时间效率，使得模型可以进一步应用于资源受限的设备，如可穿戴设备、无人机、物联网边缘设备等。

论文下载：Bi-PointFlowNet

代码下载：https://github.com/cwc1260/BiFlow.

论文翻译

Bi-PointFlowNet: Bidirectional Learning for Point Cloud Based Scene Flow Estimation

摘要：

场景流估计，即提取场景之间的逐点运动，正成为许多计算机视觉任务中至关重要的任务。然而，现有的估计方法都只利用了单向特征，限制了估计的准确性和通用性。本文提出了一种新颖的使用双向流嵌入层的场景流估计架构。所提出的双向层沿着前向和后向两个方向学习特征，增强了估计性能。此外，分层特征提取和扭曲提高了性能，减少了计算开销。实验结果表明，所提出的架构在FlyingThings3D和KITTI基准测试中取得了优于其他方法的新记录。

关键词：场景流估计·点云·双向学习

图1 .场景流估计双向学习示意图。从每个输入帧中提取的特征进行双向传播，以生成有利于场景流估计的增强特征表示。估计的场景流与源帧进行翘曲，以便与目标帧进行清晰的比较。

1、引言

场景流估计任务是从连续两帧图像中捕获逐点运动。由于它提供了动态场景的底层基本信息，已成为包括目标检测和运动分割在内的各种高层计算机视觉任务中必不可少的步骤。因此，在自动驾驶、机器人导航[ 16 , 42]等实际应用中，准确的场景流估计对于感知动态环境至关重要。

早期的场景流估计方法采用RGB图像作为输入。然而，由于能够以三维点云形式捕捉动态场景的LiDAR传感器的应用越来越多，利用点云进行场景流估计得到了积极的研究。Flow Net3D [ 21 ]利用Point Net + + [ 32 ]的分层架构提出了第一个基于点云的估计模型。基于该方案，多个研究[ 9、37]提出了多尺度相关传播结构以获得更精确的估计。最近，PointPWC [ 46 ]通过由粗到精的方式对多尺度流进行回归，显著提高了估计性能。另一项研究[ 30 ]提出在神经网络中集成最优传输求解模块，用于估计场景流量。

所有这些现有的方法都只使用单向特征传播(即,将源点特征传播到目标点)来计算流相关性。同时，针对自然语言处理( Natural Language Processing，NLP )任务[ 6、8、18、33]的各种模型表明，双向学习的特征由于具有较强的上下文信息，能够显著提高性能。

由于场景流估计也是时序处理任务，双向学习可以提高估计性能。双向配置已经证明了其在光流估计上的有效性，类似于场景流估计[ 11、12、14、20、43]。然而，据我们所知，目前还没有利用双向学习来估计三维空间中的场景流的工作。

基于这一动机，我们提出了一种新颖的基于点云的场景流估计双向架构Bi - Point FlowNet。如图1所示，双向相关性可以通过源特征的前向传播和目标特征的后向传播来学习。因此，每一帧都包含来自对方的知识，允许特征产生更强的相关性。此外，提出的Bi - PointFlowNet采用由粗到精的方法进行多尺度双向相关提取。

我们在两个具有挑战性的基准数据集FlyingThings3D [ 23 ]和KITTI [ 26 ]数据集上评估了所提模型在遮挡和非遮挡条件下的表现。在FlyingThings3D数据集上，Bi - PointFlowNet优于所有现有方法，在非遮挡和遮挡情况下估计误差分别降低了44 %和32 %以上。为了评估泛化性能，我们在合成数据集( FlyingThings3D )上训练模型，并在未进行微调的真实LiDAR扫描( KITTI场景流2015)数据集上进行评估。实验结果表明，与现有方法相比，Bi - PointFlowNet在非遮挡和遮挡情况下的误差分别降低了44 %和21 %。我们的Bi - PointFlowNet在保持较高准确率的同时也表现出更好的时间效率。

本文的主要贡献概括如下：

-首次将双向学习架构应用于基于点云的三维场景流估计任务。该模型可以提取显著提高流估计性能的双向相关性。

-我们提出了双向层的分解形式，优化了用于加速双向相关性提取的计算计数。

-所提出的模型在合成的FlyingThings3D和真实的KITTI基准测试集上，在遮挡和非遮挡条件下都实现了最先进的性能和通用性。

2、相关工作

2.1 场景流估计

三维场景流最早由文献[ 39 ]提出，它表示场景中每个表面上的每个点的稠密三维运动矢量场。早期的稠密场景流估计方法[ 3、10、23、25、29、38、40、44]使用立体RGB图像作为输入。随着3D传感器的快速发展和基于点云的网络[ 31、32、45]的出现，一系列研究提出利用原始3D点云估计场景流。Flow Net3D [ 21 ]是第一个通过深度神经网络从两个原始点云帧估计场景流的研究。然而，Flow Net3D的性能受到其单一流相关性的制约。为了解决这个缺点，Gu等人提出了HPLFlownet [ 9 ]，使用双边卷积层[ 13、34]来捕获多尺度相关性。PointPWC-Net [ 46 ]通过由粗到精的分层回归场景流，进一步提高了性能和效率。利用全向关联的方法还有其他几种，包括通过求解最优传输问题来学习全向关联的FLOT [ 30 ]和基于迭代最近点( ICP )算法[ 2、5]迭代对齐点云的FlowStep3D [ 16 ]。然而，当输入点云包含大量点时，学习一个全相关的矩阵在计算上是低效的。

我们的Bi - Point FlowNet受到这些基于点云的方法的启发。它还采用由粗到精的架构来捕获多级相关性并减少计算开销。然而，所提出的方法不同于现有的模型，它利用双向学习，从源和目标特征中收集上下文信息，以获得更准确的估计。

2.2 双向模块

双向模型旨在基于当前状态和未来状态提取特征。它们能够捕获具有未来知识的强上下文信息，有助于自然语言处理( Natural Language Processing，NLP )等许多时间序列处理任务。双向模型最早是在双向RNN ( BRNN ) [ 33 ]中提出的，它通过两个独立的网络向前和向后学习序列表示。随后，一种更强大的双向长短期记忆( Bi LSTM ) [ 8 ]结构被提出，并成功应用于逐帧音素分类。在这些基础研究的基础上，各种[ 1、24、28、49]方法被积极探索。近年来，双向编码器表示转换器( BERT ) [ 6 ]及其变体[ 17、22]在包括语言理解[ 18、47、48]在内的各种应用中取得了令人瞩目的性能。

最近，一系列研究表明二维光流估计也可以从双向学习中获益，因为光流估计也是一种基于时间序列的任务。MirrorFlow [ 11 ]重用对称光流算法双向提取前向和后向光流，并通过双向运动和遮挡一致性进行约束。类似地，Wang等人[ 43 ]也提出了一种产生双向光流的方法，但通过重用神经网络。此外，Janai等[ 14 ]提出了一种基于金字塔结构由粗到精提取双向光流的方法。基于双向模型，Hur等人[ 12 ]实现了一种利用先前输出迭代优化光流估计的架构。

然而，双向学习在三维场景流估计中尚未被探索。据我们所知，我们提出了第一个基于三维点云的双向场景流估计模型。与二维光流估计方法不同，我们提出的模型不重用单向流估计器，也不显式地生成前向和后向流。相反，我们只隐式地编码双向特征，如BRNN，并将其融合，仅用于前向流估计。因此，该模型可以消除冗余计算。

3、问题陈述

利用点云进行场景流估计是在动态场景中估计三维点向运动场。输入为两个连续的点云帧，源帧S = { pi = ( xi、fi) } iN = 1，目标帧T = { qj = ( yj , gj) } jM = 1，其中每个点由三维坐标xi，yj∈R3及其对应的特征fi，gj∈Rc组成。输出为三维运动场矢量V = { vi∈R3 } iN = 1，表示从源帧到目标帧的逐点非刚体变换。我们的目标是估计从源帧到目标帧的最佳非刚性变换V。注意，N和M分别表示源帧和目标帧中的点数。然而，由于点云的稀疏性和遮挡性，N和M不要求相等。因此，学习两帧之间的硬对应关系是不可行的。相反，我们直接学习源帧中每个点的流向量，就像最近的大多数方法[ 9、16、19、21、30、46]一样。

图2 .用于场景流估计的Bi - Point FlowNet架构。( UP表示上采样层。BFE & FP表示双向流嵌入层和流预测层。它们被可视化在同一个块中,以获得清晰的表示。)首先，我们将两个连续的输入点帧送入共享层次特征提取模块进行多层次特征提取。然后，上采样层将特征从高层传播到低层，并将扭曲操作直接应用于上采样点。在每个上采样层之后，采用双向流嵌入层进行双向特征(前向特征和后向特征)传播和流嵌入生成。流嵌入立即输入到流预测层，根据当前水平进行场景流回归。图形最好从色彩上看。(彩色图形在线)

4、Bi-PointFlowNet

提出的Bi - PointFlowNet使用具有双向流嵌入提取的分层架构来估计场景流。网络接受两个连续的点云帧S和T作为输入。网络的输出为估计的场景流向量V。如图2所示，Bi - PointFlowNet由四个部分组成。首先，分层特征提取器在两个输入帧中提取多层次的局部特征。其次，在不同的上采样层次上应用新的双向流嵌入层进行多级双向相关性提取。第三，上采样和扭曲层将特征从高层传播到低层。最后，流预测器聚合双向相关性并传播特征以获得每个级别的流估计。

4.1 分层特征提取

为了更高效有效地从点云中提取信息丰富的特征，我们采用了点云处理中常用的分层特征提取方案[ 32、45]。在L层进行特征提取，以生成从稠密到稀疏的层次特征。在每一级l，首先通过最远点采样对密集输入点及其对应特征进行下采样，形成稀疏点集。然后，利用k近邻对每个下采样稀疏点周围的稠密点进行局部分组。最后，一个Pointconv [ 45 ]层从分组的局部点中聚合特征和坐标，并为每个下采样点生成局部特征。

图3 .新型双向流动嵌入层中的双向特征传播。每个点首先从另一个点云中分组最近邻点，形成局部区域。(前向分组:一个源点从目标点分组。向后分组:一个目标点从源点分组。)局部区域中的每个点与从先前的特征上采样中传播的自己的局部特征级联。最后，共享参数的点网络层接受局部区域作为输入，并更新每个点的双向增强特征。

4.2 双向流嵌入

与传统的仅使用连续两帧之间的单向特征进行相关提取不同，我们提出了一种新颖的双向流嵌入( BFE )层，提供了丰富的上下文信息。BFE层首先通过双向特征传播( BFP )模块生成双向增强特征表示，如图3所示。然后，按照传统的流嵌入( FE )层提取相关嵌入进行流回归。

设BFP模块的输入为P和Q，其中P⋅S和Q⋅T为下采样点。对于目标框中的每个点pi∈P，BFP模块首先收集距离源框最近的点，组成NQ { pi }组。同样，BFP模块从目标帧中为形成NP { qj }组的源帧中的每个点qj∈Q收集点。随后，点pi，qj及其组NQ { pi }，NP { qj }被共享的点网络[ 31、32]层同时处理以生成双向增强的点表示。因此，双向增强的点特征，即pi的后向增强特征f′i和qj的前向增强特征g′j分别表示为：

其中，MLP和MAX分别表示学习到的点网络的共享MLP和最大池化层，' [ · , ·] '表示通道级联算子。

由于输出估计仅是前向的，因此一个普通的单向流嵌入( FE )相关层捕获从源双向增强点到目标双向增强点的BFP后的相关性。我们将这种相关性称为双向流嵌入，因为它们是从双向特征中提取的。值得注意的是，生成的增强点也被反馈到后续的上采样层进行分层特征传播，这将在4.4节中详细阐述。

4.3双向流嵌入的分解形式

上述BFE层直接遵循标准过程(即分组-→串联-→MLP-→最大池化)来融合本地信息，如[ 32 ]所示。然而，该过程需要对输入点云的每个点执行大量的操作。设BFE模块的输入为P = { ( xi、fi)∈R3 + C } N′i = 1和Q = { ( yj , gj)∈R3 + C } M′j = 1，分组点数为K。则( N′+ M′) × K次需要( 3 + C + C) × C′MLP计算。因此，BFE的总操作次数为( N′+ M′) × K × ( 3 + C + C) × C′。然而，由于输入点总数为( N′+ M′)，因此将每K个近邻点分组为( N′+ M′)组，然后通过MLP计算。因此，至少重复计算( N′+ M′) × ( K-1)的MLP操作。

为了优化这种冗余，我们提出了一种分解形式的BFE。首先，将MLP权重W分解为3个子权重：局部位置编码权重Wp∈R3 × C′，双向传播特征权重Wb∈RC × C′，复制特征权重Wr∈RC × C′。Wb和Wr在分组前同时在P和Q处执行，从而形成变换后的特征Wbfi、Wbgj、Wrfi和Wrgj。然后提供这些变换后的特征及其对应的坐标用于分组。之后，仅使用Wp进行分组局部坐标转换。最后，我们简单地将变换后的局部坐标与变换后的特征相加并应用激活函数。因此，式( 2 ) . 1和2可以变换为：

式中：σ表示激活函数。因此，计算P，Q处的Wb，Wr只需要( N′+ M′) × ( C + C) × C′次运算，而局部坐标转换需要( N′+ M′) × ( K × 3 ) × C′次运算。因此，分解后BFE的总计算次数减少为( N′+ M′) × ( K × 3 + C + C) × C′。

4.4 上采样和重投影

上采样( UP )层可以将特征(包括流、局部特征和双向增强点)从稀疏级别传播到密集级别。为了减少计算成本，我们采用基于k近邻的反距离加权函数进行三维插值。令{ ( xlj , flj) } Nlj = 1表示来自高层的坐标和特征，{ xl-1i } Nl-1i = 1表示来自低层的坐标通过超链接，其中Nl - 1和Nl为点数且Nl - 1 > Nl。稠密点{ xli }的插值特征定义为：

其中w( xlj , xl-1i) = 1 / | | xlj-xl-1 i | | 2，默认k = 3

上采样后的场景流立即累加到源帧中，以便通过一个翘曲层得到与对应目标帧更接近的帧。对于第l层的每个源点xl，这个过程可以简单地表示为xlw = xl + vl，其中vl表示上采样的流矢量。通过变形，变形后的点逐渐靠近目标帧。因此，后续的BFE层可以很容易地将更多具有高语义相似性的有价值点分组，从而促进更准确的流估计。此外，对当前水平的准确流量估计也会增强下一水平的翘曲。

4.5 场景流预测

为了回归场景流向量，我们实现了一个场景流预测器。对于每个层次，输入为来自上采样层的上采样流和特征，以及来自BFE层的双向流嵌入。首先，预测器使用一个Pointconv，通过局部融合这些特征来产生平滑的特征，并在每个扭曲的源点周围流动。随后，MLP将平滑的高维特征转化为所有点的三维场景流向量。由于预测器只关注每个弯曲源点周围的一个小区域，最后一个MLP层的输出是逐点的流残差，如[ 27、41]。然后，将残差与上采样流量进一步累加，形成当前水平的输出流量估计。

4.6 损失函数

训练过程采用了前人研究中用于光流估计[ 7、35]和场景流估计[ 42、46]的多级监督方式。在每个级别上，估计的流都受到L2损失的监督。令{ vl i } N l i = 1表示第l层估计的场景流向量，{ ( vl i } N l i = 1表示第l层的真实场景流向量。训练损失定义为：

式中：α l为损失函数在第l层的权重。权重默认设置为α 0 = 0.16，α1 = 0.08，α2 = 0.04，α3 = 0.02。

5、实验

5.1 实验设定

我们使用PyTorch在NVIDIA TITAN RTX GPU上进行了实验。如图2所示，我们实现了一个L = 4的层次模型。我们使用N = M = 8，192个点作为输入。每个层次的下采样点数分别定义为N1 = 2，048，N2 = 512，N3 = 256，N4 = 64。与之前的方法一样，我们首先在合成的FlyingThings3D [ 23 ]数据集上训练和评估网络( Sect.5.3 )。然后，为了验证模型的泛化能力，将训练好的模型直接在真实的KITTI Scene Flow 2015 [ 26 ]数据集上进行评估，不做任何微调(第5.4节)。

5.2 评价指标

为了公平比较，我们采用了与最近的工作[ 9、16、19、30、46]相同的评估指标。

表1。在非遮挡的FT3Ds和KITTIs数据集上，将所提方法与现有方法进行比较。所有方法仅在FT3Ds数据集上进行训练。

表2 .在遮挡的FT3Do和KITTIo数据集上，将所提方法与现有方法进行比较。所有方法仅在FT3Do数据集上进行训练。

5.3 Flyingthings3D的训练与评估

FlyingThing3D [ 23 ]是一个由19，640对训练帧和3，824对测试帧组成的合成数据集。每一帧由从ShapeNet [ 4 ]数据集中采样的具有多个移动对象的场景渲染的立体和RGB - D图像组成.我们基于不同预处理方法制备的两个版本的数据集训练和评估了我们提出的模型。第一个版本是FT3Ds，它将图像数据转化为点后去除被遮挡的点，如[ 9、16、30、46]中建议的那样。[ 21、27、30]引入的第二个版本FT3Do，保留了遮挡点。从每一帧中随机抽取N = 8，192个不对应的输入点。

对于训练，我们使用Adam优化器[ 15 ]，beta1 = 0.9，beta2 = 0.999，起始学习率α = 0.0001。学习速率每隔80个历元减少一半。我们训练了560个历元的模型。

结果。我们报告了所提模型与其他先进方法[ 9、16、21、27、30、46]的性能比较。在非遮挡的FlyingThings3D数据集上，本文提出的Bi - PointFlowNet在所有基于点云的评价指标上取得了新的最先进记录，如表1所示。它的估计误差比最近所有最先进的方法降低了44 %以上。与类似的由粗到细的PointPWC [ 46 ]相比，我们的模型实现了52 %的误差减少。另一方面，表2也显示了我们的工作在处理遮挡数据时的出色表现。我们的Bi - PointFlowNet在性能上提升了32 %。此外，我们还将我们的方法与基于RGB - D图像的RAFT - 3D [ 36 ]进行了比较。表2显示，我们的方法在16次迭代中取得了与Raft - 3D相当的性能。虽然我们的方法没有获得更好的EPE3D和ACC3DS，但是对于ACC3DR度量，我们的方法优于Raft - 3D。尽管误差略有增加，但我们报告了我们的模型比RAFT - 3D ( 329GFLOPs , 45M)所需的计算量( 13.3GFLOPs )和参数大小( 7.9M )显著减少，使其更适用于时间敏感的低功耗应用。根据文献[ 36 ]，我们预期在迭代次数较少的情况下，RAFT - 3D具有与我们相似的计算量会比我们的精度差很多。

5.4 在KITTI上泛化性

为了评估Bi - PointFlowNet对真实数据的泛化能力，我们遵循了与最近的研究[ 9、16、21、27、30、46]相同的评估策略。我们直接在真实的KITTI [ 26 ]数据集上对训练好的模型进行测试，没有进行微调。KITTI数据集包含200个训练集和200个测试集。然而，由于没有生活来源在测试集和部分训练集中存在差异，我们从训练集中使用了142个场景(非遮挡)和150个场景(遮挡)。为了与之前的方法[ 9、16、21、27、30、46]进行公平的比较，我们遵循了按高度< 0.3 m去除地面点的常见步骤。根据FlyingThings3D数据集的准备，创建了非遮挡KITTIs和遮挡KITTIo数据集。

结果。表1和表2分别列出了KITTIs和KITTIo的泛化结果。我们的方法在所有指标上都显著优于其他方法。表1表示在主要的EPE3D指标上，该模型比先前的最先进方法性能提升了44 %。与以前的由粗到精的网络PointPWC - Net [ 46 ]相比，本文的方法实现了56 %的误差减少。

表3 .双向流嵌入层的消融。BFP表示是否使用BFP模块。所有方法仅在FlyingThings3D数据集上进行训练。

表4 .双向流嵌入层分解形式的消融。Decomp .表示是否使用BFE的分解形式。GFLOPs表示总操作计数。所有方法仅在FT3Ds数据集上进行训练。

表5 . PointPWC和FlowNet3D上双向特征传播的比较。虽然选择的基线表现出较强的性能，但我们提出的BFP仍然将误差降低了很大的幅度。

表6 .运行时间对比。结果在单个TITAN RTX GPU上进行评估。

5.5 消融实验

双向流嵌入层的消融实验。如4.2节，提出的双向流嵌入层的关键组成部分是双向特征传播模块，其次是传统的单向流嵌入层。为了评估BFP的贡献，我们实现了一个去除BFP模块的消融模型，从而得到一个单向网络。我们将该消融模型与我们提出的全模型的性能进行了比较，见表3。结果表明，提出的BFP模块在所有指标上的性能都有显著的提升，并且具有较大的裕度。特别是在KITTIs数据集上的通用性测试EPE3D误差降低了43 %，这在实际应用中具有重要意义。此外，无BFP的烧蚀模型和原始PointPWC - Net都是由粗到细的结构。然而，根据表1和表3，由于在流量预测器中引入了残差，消融模型仍然优于Point PWCNet。

BFE分解形式的消融。我们进行了两个对比实验来评估所提出的BFE分解形式的有效性和效率。第一种是原始BFE的Bi - Point FlowNet ( 4.2节)，另一种是分解后的BFE的模型( 4.3节)。表4显示，与原始模型相比，使用分解形式的模型在保持准确率的情况下，总操作次数显著减少44 %，推理速度加快33 %。

我们对Flownet3D和Pointpwc贡献的消融。我们通过将BFP模块应用于其他最先进的方法Flow Net3D [ 21 ]和Point PWC [ 46 ]来验证所提出的双向学习方法的贡献。我们通过在流相关模块之前直接插入BFP来构建两个模型。由于添加BFP需要额外的参数，我们还实现了一个更深的FlowNet3D网络，其参数量与添加BFP的模型相当。值得注意的是，与FlowNet3D相关的实验在遮挡数据集上进行评估，而基于PointPWC的实验在非遮挡数据集上进行测试。从表5可以看出，本文提出的BFP具有良好的效率和效果。在Point PWCC中增加0.2 M (仅占总数的3 %)参数后，性能得到了提升，误差降低了13 %。此外，Flow Net3D与BFP的结合显著降低了31 %的泛化误差。更进一步，对更深层的Flow Net3D的消融表明，性能的改善是由于双向策略，而不是参数数量增加的影响。

图4 . Bi - PointFlowNet在非遮挡KITTIs数据集上的定性结果。对点进行着色，表示来自源帧、目标帧、单向Point POCNet估计点(源帧+场景流)或双向Bi - Point FlowNet估计点(源帧+场景流)。(彩色图形在线)

5.6 运行时间

我们在表6中比较了我们提出的方法与其他先进方法的运行时间。我们在单个NVIDIA TITAN RTX GPU上测量了所有方法的运行时间。该模型运行时间为40.5 ms，由于采用了BFE分解，比由粗到精的Point PWC [ 46 ]快。此外，与最近的其他先进方法[ 16、30]相比，我们的方法在运行时间方面有很大的优势，同时实现了更高的准确性和通用性。

6、结论

我们提出了Bi - Point FlowNet，用于精确快速的场景流估计。我们提出的网络利用了一个新颖的双向流嵌入模块，该模块通过分层特征提取和传播来准确地估计流量。为了进一步加速推理，所提方法应用了双向流嵌入层的分解形式，去除了冗余计算。在两个具有挑战性的数据集上的实验结果表明，我们的网络在非遮挡和遮挡条件下都显著优于先前的先进方法。所提出的模型还表现出优异的时间效率，使得模型可以进一步应用于资源受限的设备，如可穿戴设备、无人机、物联网边缘设备等。