[论文翻译]GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow

论文翻译:

GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow

摘要:

场景流是三维点云中各点运动信息的集合。它是应用于许多任务的重要工具,例如自动驾驶和增强现实。然而,无论是从稀疏性数据采样还是现实世界的遮挡,两个连续的点云之间总是存在遮挡点。在本文中,我们重点研究通过移动对象的自相似性和局部一致性来解决场景流中的遮挡问题。我们提出了一种基于Transformer框架的GMA3D模块,该模块利用局部和全局相似性分别从局部和全局非遮挡点的运动信息中推断遮挡点的运动信息,然后使用偏移生成器对其进行聚合。我们的模块是第一个应用基于转换器的架构来测量点云上场景流遮挡问题的模块。

关键词:场景流、点云、Transformer、运动遮挡

1、引言

捕捉动态场景中的物体运动信息具有重要意义。场景流[ 5 ]计算三维场景中连续两帧的运动场,得到运动物体的方向和距离集合。场景流是底层的运动信息,在机器人路径规划、目标跟踪、增强现实等应用中具有广泛的适用性。以前的方法使用RGB图像[ 11 ],[ 12 ],[ 18 ],[ 19 ],[ 21 ],[ 23 ],[ 30 ],[ 32 ],[ 33 ]。但2D方法无法准确考虑真实场景中的3D信息。而点云是三维场景中点坐标的集合,能够精确反映物体三维坐标的几何信息。随着三维传感器的进步,点云数据的获取变得容易。然而,由于点云的不规则性和无序性,很难提取这些坐标集合的局部和全局特征,而这恰恰是场景流任务的关键。

深度学习的进步给点云领域带来了希望。PointNet[ 6 ]和PointNet+ + [ 7 ]开创了对原始点云直接提取特征的先河,随后点云领域的深度学习网络[ 6 ]、[ 7 ]、[ 9 ]、[ 10 ]、[ 16 ]、[ 20 ]、[ 26 ]不断涌现。这些工作为场景流任务提供了必要条件。结合这些框架,许多适用于场景流的神经网络架构被提出[ 1 ],[ 4 ],[ 17 ],[ 22 ],[ 31 ],它们比传统的基于优化的方法具有更好的性能。这些方法虽然在非遮挡数据集上取得了不错的效果,但是无法推断被遮挡物体的运动信息,这会导致在大规模遮挡场景中,例如在大规模交通堵塞情况下,场景流出现偏差。

场景流任务中的遮挡点存在于第一帧(源)点云中。我们将其定义为在第二帧中没有对应点和/或对应块的点的集合。进一步地,我们将遮挡点分为两类:第一类在第一帧点云的局部区域有非遮挡点,这些点称为局部遮挡点。第二类点为全局遮挡点,其局部区域内不存在非遮挡点。前一种方法通过两帧之间的特征匹配计算出对应的场景流,可以很好地推断出第一帧中非遮挡点的场景流,因为这类点在第二帧中有对应的匹配块,通过两帧点云之间的互相关可以推断出运动信息。然而,遮挡点在第二帧点云中没有对应的匹配块,无法根据两帧点云之间的互相关推断运动信息。相比之下,人类在推断动态场景中被遮挡物体的运动时往往采用自相关性。例如,在不考虑碰撞的情况下,可以从尾部推断同一车辆被遮挡头部的运动信息。因此,运动的自相关性对于解决场景流中的遮挡问题具有重要意义。

此前,Ouyang等人将场景流估计与遮挡检测相结合[ 13 ],通过优化两个目标任务来推断遮挡点的运动信息。这样的方法可以有效的治愈局部小尺度遮挡问题,但是仍然无法解决局部大尺度遮挡和全局遮挡问题。Jiang等人设计了一种基于转换器的全局运动聚合( global motion assembly,GMA )模块[ 3 ]来推断光流中被遮挡像素的运动信息。受GMA启发,我们将Transformer [ 2 ]框架融入场景流任务中,利用点云特征的自相似性聚合运动特征,获取遮挡点的运动信息。遗憾的是,GMA仅从全局角度考虑运动特征,没有考虑运动的局部一致性,可能导致局部遮挡点的错误运动。

为了解决这些问题,我们提出了一个局部和全局相似性图( LGSM )模块来计算局部和全局相似性矩阵,然后使用偏移生成器( OG )来聚合基于自相似性矩阵的运动信息。对于局部遮挡,我们基于局部运动一致性从其局部非遮挡点推导出遮挡点的运动信息。对于全局遮挡点,我们应用全局自相似矩阵从非遮挡点中聚合运动特征。我们利用这些局部和全局的聚合运动特征来增强成功的PV - RAFT [ 1 ]框架,并在场景流估计中显示最新的结果。

本文的主要贡献如下。我们提出了一个基于Transformer的框架来解决场景流中的运动遮挡问题。为了同时考虑局部运动一致性,我们设计了LGSM模块来计算局部和全局自相似矩阵,然后应用偏移生成器将具有自相似性的非遮挡点的运动特征聚合到遮挡点上。此外,我们证明了GMA3D模块通过聚合局部和全局运动特征来降低局部运动偏差,这对于非遮挡点也是有利的。实验表明,我们的GMA3D模块在场景流任务的准确率上取得了不错的表现,无论是在有遮挡的情况下还是无遮挡的情况下。

2、相关工作

A 基于点云的场景流

文献[ 5 ]首次提出了场景流,构建了从二维光流到三维场景流的框架。随后,RGB图像的三维运动估计方法也有很多[ 11 ],[ 12 ],[ 18 ],[ 19 ],[ 21 ],[ 23 ],[ 30 ],[ 32 ],[ 33 ]。文献[ 11 ]利用变分算法估计立体图像序列的场景流。文献[ 19 ]将动态场景表示为刚性运动平面的集合,应用分段刚性场景模型估计立体图像序列的运动。文献[ 12 ]提出了一种将深度估计与运动估计解耦的变分框架用于立体场景流的估计。文献[ 18 ]最小化形状和运动估计的预测误差,从多个视频序列中推断三维运动。随着三维传感器的发展,三维点云的获取变得更加容易。越来越多的深度学习网络直接提取原始点云的特征[ 6 ],[ 7 ],[ 9 ],[ 10 ],[ 16 ],[ 20 ],[ 26 ]。基于这些架构,许多直接在原始点云中进行场景流任务的深度学习方法被提出。

FlowNet3D [ 4 ]提出了一种直接基于点云的端到端场景流网络,采用编码器-解码器架构和流嵌入层进行流估计。但FlowNet3D采用固定尺度邻域半径计算两帧点云之间的代价体,无法准确估计远距离位移物体的场景流。受卷积神经网络的启发,HPLFlowNet [ 31 ]将输入点云的信号插值到一个分层的百面体格中,并在该格上进行稀疏卷积,用于场景流估计。PointPWC-Net [ 22 ]将多尺度特征方法应用于场景流,表示一种新的金字塔残差流估计网络,逐步细化场景流,将两帧点云之间的代价体积由点-面改为面-面,扩大了互相关感受野。受图匹配的启发,FLOT [ 34 ]将最优传输理论与场景流任务相结合。它利用连续两帧点云特征之间的对相似性来构建运输成本图,并利用迭代优化算法估计全分辨率场景流。同样受到最优传输理论的启发,Li等人构建了无监督的场景流模型self - point - flow [ 25 ],利用两帧点云之间的oneone匹配最优传输矩阵产生伪标签,然后利用随机游走算法平滑局部运动信息。HCRF [ 35 ]将深度神经网络与条件随机场相结合,通过表示高阶条件随机场的势函数来约束刚体运动的局部变换和点云之间的运动一致性。FlowStep3D [ 17 ]提出全局匹配来推断初始场景流,然后构建局部更新单元和基于GRU的迭代架构来优化场景流。受光流法RAFT [ 36 ]的启发,Wei等人设计了PV - RAFT [ 1 ]方法来构建两个连续点云之间所有对的代价体,并分别应用KNN ( point level )和体素方法来估计短距离和长距离运动。

然而,很少有技术来解决场景流的遮挡问题。Self- Mono- SF [ 46 ]利用带有3D损失函数的自监督学习和遮挡推理来推断单目场景流中遮挡点的运动信息。文献[ 37 ]结合遮挡检测、深度和运动边界估计来推断遮挡点和场景流。PWOC-3D [ 8 ]构建了一个紧凑的CNN架构来预测立体图像序列中的场景流,并提出了一种自监督策略来生成遮挡图,以提高流估计的准确性。OGSF [ 13 ]提出了相同的主干网络来优化场景流和遮挡检测,然后将遮挡检测结果与两帧点云之间的代价体积相融合,将遮挡点的代价体积变为0,最后通过聚合非遮挡点来推断遮挡点的运动信息。

B.Transformer for point clouds

Transformer [ 2 ]是自然语言处理领域的革命性进展[ 14 ],[ 15 ],[ 38 ],[ 40 ],随后在图像领域[ 24 ],[ 39 ],[ 41 ]展现了非凡的才华。随后,许多研究人员将Transformer 带入了点云域。受VIT [ 39 ]的启发,Guo等人基于Transformer框架提出了PCT [ 26 ]。它们在特征图中嵌入位置信息,并将偏移注意力表示为聚合点云特征。Zhao等人设计了Point Transformer [ 28 ],将点云视为一个集合,利用向量自注意力聚合点云的特征。为了应对大规模3D场景带来的挑战,Park等人提出了快速点变换[ 29 ]。他们使用哈希体素方法快速有效地编码大规模场景的位置信息,然后应用质心感知体素化和去体素化来提取点云特征。Zhang等人引入了Patch Attention

 图1 .我们提出的GMA3D模块的整体流程。我们的网络基于成功的PV - RAFT [ 1 ]架构。GMA3D模块的输入为第一帧点云的上下文特征和运动特征,输出为局部和全局聚合的运动特征。将这些聚合后的运动特征与上下文特征和原始运动特征进行拼接,然后将拼接后的特征输入GRU进行残差流估计,最后通过求精模块进行求精。

3、方法

我们将场景流视为一个3D运动估计任务。它输入连续两帧点云数据P Ct = { pcit∈R3 } N i = 1和P Ct + 1 = { pcj t∈R3 } M j = 1,输出P Ct第一帧中每个点的三维矢量F low = { fi∈R3 } N i = 1来指示如何移动到第二帧的相应位置。

A、背景

GMA3D模块的核心架构是PVRAFT [ 1 ]。整体网络图如图1所示。为了完整起见,我们将简要介绍PV - RAFT模型。与以往的粗-精方法不同,PV - RAFT在特征提取和场景流估计中舍弃了下采样,直接推断高分辨率点云场景流,既避免了前期步骤误差计算,又捕获了快速运动物体的运动信息。为了减少内存消耗,PV - RAFT对连续两帧点云之间的相关图进行截断,只对目标点云中与源点云相似度最高的前K个点计算代价体积。因此PV - RAFT采用点体素策略计算源点云的代价体。在点层面,采用KNN方法寻找目标点云邻域内的点进行短距离位移。在体素层面,基于源点云对目标点云中的点进行体素化,以捕捉远距离位移。然后,它将点云上下文特征和代价体一起发送到基于GRU的迭代模块来估计残差流。最后,在求精模块中对流特征进行平滑处理。但PV - RAFT在处理数据集时去除了遮挡点,无法解决场景流中的遮挡问题。

 图2 . GMA3D模块细节说明。利用LGSM模块计算第一帧点云的局部和全局相似度矩阵。在LGSM模块中,我们通过带共享权重的线性模型将上下文特征映射为查询特征图和关键特征图。其次,将点积生成的注意力图应用softmax和l1范数生成全局自相似矩阵。然后,利用首层点云之间的相对距离和全局自相似矩阵计算局部相似度矩阵。最后,通过偏置生成器将局部和全局相似度矩阵与值编码器投影的运动特征进行加权求和,输出局部和全局聚合的运动特征。

B.概述

对未知信息的推断往往依赖于已知的方法。为了解决遮挡问题,我们总是需要非遮挡点的运动信息。

尽管Transformer在自然语言处理和成像领域表现出了令人鼓舞的效果,但我们发现不能直接使用传统Transformer的注意力机制来聚合点云的特征。这是因为,不同于具有规则排列的图像数据和具有语义特征的句子,点云数据只是三维坐标的集合,具有无序性和不规则性。受文献[ 26 ]的启发,我们将偏移量生成器引入场景流任务,以聚合变压器架构中点云的运动信息。

在光流任务中,GMA [ 3 ]利用Transformer全局聚合相似像素的运动特征来推断被遮挡像素的运动信息。受GMA的启发,我们利用自相似性方法来解决场景流的遮挡问题,这在场景流领域从未被使用过。我们通过共享权重的线性模型将上下文特征映射为查询和关键特征,通过另一个线性模型将运动特征映射为值特征,然后使用基于Transformer的框架聚合运动特征。

然而,GMA [ 3 ]仅依靠全局特征相似度来聚合运动特征,可能会导致一些运动偏差。例如,在街道场景中存在许多具有相似特征的车辆,但它们的运动可能是多样的。如果仅使用全局特征相似度进行运动信息聚合,则反向运动车辆的运动可能会错误地聚合到另一车辆的遮挡位置。因此,在解决运动遮挡问题时,还需要考虑局部运动的一致性。具有相似上下文特征的同一帧点云中点之间的相对距离越近,运动信息越一致。我们将相对距离融入到相似度图中,提出了局部全局相似度图模块,分别用于聚合局部和全局运动特征。我们将这个模块命名为GMA3D。将聚合后的局部和全局运动特征与原始运动特征和上下文特征进行拼接,然后送入GRU模块迭代估计场景流。GMA3D的具体结构如图2所示。

C.数学公式

设q,k,v分别为query、key和value投影算子,公式如下:

 其中x = { xi } N i = 1∈RN × Dc表示上下文特征,y = { yj } N j = 1∈RN × Dm表示运动特征,其中N表示源点云的个数,Dc和Dm分别表示上下文特征和运动特征的维数。此外,Qm,Km∈RDc × Dq,k是共享的可学习线性投影且Vm∈RDm × Dm。

首先,利用q ( x )和k ( x )将上下文信息映射到查询图和密钥图,并通过函数f ( x , y)计算局部和全局相似度矩阵。然后,我们通过v ( y )将运动特征映射为值特征,并通过局部和全局相似度矩阵分别生成局部和全局聚合运动特征。

 这里N ( xi )是KNN捕获的xi的局部邻域点的集合,f表示给定的操作

 

 最后,我们应用偏移聚合器得到局部和全局的聚合运动信息并根据可学习系数将其添加到原始运动信息中得到最终输出。

 其中hl,n,r分别表示线性模型,批范数和relu .

 图3 .非遮挡版本的KITTI数据集(左)和FlyThings3D数据集(右)上的定性结果。顶端:源点云(蓝色)和目标点云(红色)。底层:利用源点云和目标点云(红色)的估计流进行扭曲点云(绿色)。

5、实验

A 数据集

遵循之前的方法[ 1 ],[ 13 ],[ 17 ],[ 34 ],我们在FlyThings3D [ 42 ]数据集上训练模型,并分别在FlyThings3D和KITTI [ 43 ],[ 44 ]数据集上进行测试。目前有两种不同的方法来处理这些数据集,因此我们分别在这些不同处理方法生成的数据集上进行比较。第一种方法源于文献[ 31 ],该方法去除了遮挡点和一些难点。根据文献[ 34 ],我们将这一版本的数据集称为FlyThings3Ds和KITTIs。另一种获取场景流数据集的方式来自文献[ 4 ],其中遮挡点的信息被保留。我们将这些数据集的第二个版本称为FlyThings3Do和KITTIo。但与之前的方法[ 1 ],[ 4 ],[ 17 ],[ 34 ]不同的是,我们在遮挡版本的数据集中包括遮挡点在内的所有点上进行训练,以证明我们的GMA3D模块可以用于解决场景流中的遮挡问题。

B.评价指标

沿用之前的方法[ 1 ]、[ 4 ]、[ 31 ]、[ 34 ],我们仍然使用传统的评价算子来比较我们的GMA3D模块的性能,包括EPE ( m )、Acc strict、Acclax和Outliers:

 表I在Flyingthings3Ds和Kittis数据集上的性能比较。表中的所有模型都以监督的方式在非遮挡的Flyingthings3D上进行训练,并在非遮挡的Kitti上进行测试。每个数据集的最佳结果用粗体标出。

C. FT3D和KITTI无遮挡性能

我们将GMA3D在数据集FT3Ds和KITTIs上得到的结果与之前的方法[ 1 ],[ 22 ],[ 31 ],[ 34 ]进行了比较,详细的比较结果如表I所示。与基线[ 1 ]不同的是,我们在训练时将GRU迭代次数增加到12次,迭代次数增加到45次,因此模型可以更好地将原始运动信息和自相似性聚合得到的运动信息进行整合。实验表明,在FT3Ds和KITTIs数据集上,本文的GMA3D模块都取得了当前最好的结果,比基线分别提高了13.9 %和22.5 %,说明GMA3D在解决遮挡问题的同时,仍然能够对非遮挡场景产生更有利的解决方案,如图3所示。

通过我们的实验,我们得出GMA3D在非遮挡版本的数据集上性能提升的原因有两个:第一,从上面的遮挡分析中,我们推断最远点采样算法可能会造成两个连续点云之间局部匹配区域的删除,从而导致隐藏遮挡的发生。其次,我们的GMA3D模块通过自相似性聚合局部和全局运动信息,不仅可以平滑局部运动,还可以降低首个点云中局部区域的运动不一致性。

D.在Ft3D和Kitti遮挡情况下的表现

我们还在数据集FT3Do和KITTIo上将我们的GMA3D模块与之前的方法[ 4 ]、[ 13 ]、[ 22 ]、[ 31 ]、[ 34 ]、[ 45 ]进行了比较。我们在n = 8192个点上训练了GMA3D模块,初始学习率为0.001,迭代次数为45次,迭代次数为12次。具体比较结果见表二。在合成的FT3Do数据集中,我们的GMA模型的性能与最先进的方法[ 13 ]基本一致。然而,GMA3D具有更强的泛化能力,在没有任何微调的真实数据集KITTIo上比OGSF提升了26.4 %。并且[ 13 ]依赖于遮挡掩码的真实值,这在真实数据集中是不存在的。相比之下,我们的GMA3D只依赖于点云的三维坐标,在现实世界中更有竞争力。图4可视化了GMA3D对KITTIo数据集中遮挡点场景流估计的效果。

 图4 .在遮挡版本的KITTI数据集上的定性结果。顶端:源点云(蓝色)和目标点云(红色)。底层:利用源点云和目标点云(红色)的估计流进行点云平移(绿色)。

 表II在Flyingthings3Do和Kittio数据集上的性能比较。表中的所有模型都在遮挡的Flyingthings3D上进行训练,并在没有任何微调的遮挡的Kitti上进行测试。每个数据集的最佳结果用粗体标出。

E.消融研究

我们在FT3Do数据集上进行了实验,以验证GMA3D中各种模块的有效性,包括偏移聚合器和LGSM模块。我们将这些模块逐步添加到GMA3D中,最终结果如表III所示。从表三中我们可以推断出各个模块在GMA3D中起着重要的作用。首先,当不引入偏移聚合器时,模型表现不佳。这是因为原始transformer是针对自然语言处理领域设计的。然而自然语言与点云之间存在诸多差异,无法直接应用于点云。其次,我们发现只关注全局运动信息会产生较差的结果。利用局部-全局自相似性映射,GMA3D可以分别从局部和全局两个方面聚合运动特征来提高精度。

 表III在Ft3Do数据集上Gma3D的消融研究。我们在Gma3D中增量添加了偏移聚合器和Lgsm模块

5、结论

在这项工作中,我们提出了GMA3D从局部-全局运动聚合的方法来解决场景流中的运动遮挡问题。GMA3D利用局部和全局自相似性聚合运动特征来推断第一个点云中局部和全局遮挡点的运动信息。此外,GMA3D可以平滑局部运动,也有利于非遮挡点的场景流估计。在遮挡和非遮挡数据集上的实验验证了GMA3D模块的优越性和泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值