在2019和2020年的CVPR上均有关于点云场景流的相关工作,今天介绍的是2021年CVPR上最新的关于点云场景流的工作。机器人和人机交互中的许多应用都可以从理解动态环境中点的三维运动中获益,这种运动被广泛称为场景流。相较于静态的点云,点云场景流估计更侧重于计算两个连续帧之间的3D运动场,这为场景提供了重要的动态信息。以往的方法大多以立体图像和RGB-D图像作为输入,很少有直接从点云估计场景流的方法。随着3D数据变得更容易获得,许多工作最近开始关注点云的场景流估计。
在本文中,作者提出了一种Point-Voxel Recurrent All-Pairs Field Transforms (PV-RAFT)方法来估计来自点云的场景流。由于点云是不规则且无序的,因此从3D空间中的所有对(all-pairs)场中有效提取特征十分具有挑战性,其中所有对相关性在场景流估计中起着重要作用。
为了解决这个问题,作者提出了点体素相关场(PV-RAFT),其核心有以下2点:
1)PV-RAFT通过学习点对的局部和全局的依赖关系,从而实现捕获基于点的相关性,同时采用K-Nearest Neighbors搜索来保留局部区域中的细节信息。
2)通过以多尺度方式对点云进行体素化,作者构建了金字塔相关体素来模拟大尺度上的对应关系。然后利用PV-RAFT融合处理这两种类型的相关性。
作者最后在FlyingThings3D和KITTI Scene Flow 2015数据集上取得了不错的结果。
作者的出发点是认为与从粗到细的策略相比,all-pairs场同时保留了局部相关性和远距离的全局关系。但考虑到点云的不规则性,在3D空间构建结构化的all-pairs相关场仍然十分困难,为了解决这些问题,作者提出了点体素相关性场,以多尺度方式对目标点云进行体素化以构建金字塔相关体素,这些场融合了基于点和基于体素的相关性的优点(如图1所示)。同时,为了节省内存,作者还提出了一种截断机制来选择性的放弃计算分数较低的相关场。
图1 点体素相关场的图示。对于源点云中的一个点,作者通过在目标点云中找到它的k近邻点来提取基于点的相关性。此外,作者还通过构建以该源点为中心的体素来模拟全局的