3DMatch官网

Gypsophila_01

于 2023-08-27 23:27:27 发布

阅读量379

点赞数

文章标签： 3d 计算机视觉深度学习 python 神经网络图像处理视觉检测

本文链接：https://blog.csdn.net/Gypsophila_01/article/details/132529541

版权

本文为 3DMatch 官网的中文自翻译版本，官网链接。

3DMatch: 从RGB-D重建中学习局部几何描述符

在实际的深度图像中匹配局部几何特征是一项具有挑战性的任务，这是因为3D扫描数据的噪声、低分辨率和不完整性。这些困难限制了当前最先进方法的性能，这些方法通常基于几何属性的直方图。在本文中，我们提出了3DMatch，这是一个数据驱动的模型，它学习了一个用于在部分3D数据之间建立对应关系的局部体积块描述符。为了为我们的模型积累训练数据，我们提出了一种无监督的特征学习方法，利用现有RGB-D重建中的数百万对应标签。实验证明，我们的描述符不仅能够在新场景中匹配局部几何，用于重建，还能够推广到不同的任务和空间尺度(例如，用于亚马逊拾取挑战中的实例级对象模型对齐，以及网格表面对应)。结果显示，3DMatch在性能上始终比其他最先进的方法具有显著的优势。

OverView

在这里插入图片描述

从现有的RGB-D重建中(a)，我们提取局部3D块并从不同视角的扫描中获得对应标签(b)。我们收集成对的匹配和非匹配局部3D块，将其转换为体积表示©，以训练基于3D ConvNet的描述符(d)。这个几何描述符可以用于建立各种应用(e)中的3D几何匹配，比如重建、模型对齐和表面对应。

Code

GitHub 链接

关键点匹配基准测试

该基准测试评估了描述符(包括2D和3D)在不同视角的RGB-D帧之间建立对应关系的能力。数据集包含宽基线对应关系的2D RGB-D块和3D块(局部TDF体素网格体积)，这些块是从我们的RGB-D重建数据集的测试集中采样得到的。每个2D块的像素大小由围绕兴趣点的0.3m³局部3D块在图像平面上的投影确定。我们在这里提供了用于生成类似对应关系数据集的Matlab代码。尽管我们的基准是仅使用深度信息的3D方法，但我们也寻找能够利用颜色信息或两种模态的描述符算法(2D或3D)。

(注：TDF代表Truncated Distance Function，用于表示局部几何信息的一种方法。)
在这里插入图片描述

下载和描述

有两个Matlab .mat文件，一个用于验证集，另一个用于测试集。下载链接：
validation-set.mat(1.8 GB)

test-set.mat(1.8 GB)
验证集包含10,000对RGB-D块及其地面实况对应标签(匹配为二进制1，不匹配为0)。测试数据集包含另外10,000对类似的数据，除了地面实况对应标签被省略。每个Matlab .mat文件包含以下变量：

data - 一个大小为10,000x2的单元数组，每个单元数组包含一个兴趣点的2D/3D块数据，具有以下变量：
• framePath - 从中提取块数据的场景、序列和RGB-D帧的路径
• pixelCoords - 包含兴趣点在RGB-D帧上像素坐标的1x2数组
• camCoords - 包含兴趣点的3D相机坐标的3x1数组
• bboxCornersCam - 包含围绕兴趣点的0.3m³边界框的3D相机坐标的3x8矩阵
• bboxRangePixels - 2x2矩阵，每一行是在图像平面上投影的边界框的像素角
• camK - 相机内参的3x3矩阵
• colorPatch - 围绕兴趣点的RGB块的HxWx3 uint8矩阵
• depthPatch - 围绕兴趣点的深度块(以米为单位)的HxW矩阵
• voxelGridTDF - 围绕兴趣点的30x30x30 TDF体素网格值矩阵(体素大小为0.01m)
labels - (仅在validation-set.mat中)包含10,000个二进制对应标签(1表示匹配，0表示不匹配)的单元数组，对应于保存在data中的每对(行)兴趣点。

更新(截至2018年3月)：为了方便起见，您可以在此处下载测试集的标签。

我们没有提供固定的训练集，但是我们在此处提供了我们用来实时采样训练对应关系以训练3DMatch的C++/CUDA代码。您还可以按照此处的说明(参见makeCorresDataset.m)使用训练场景生成自己的固定训练集，而不是使用测试场景。

评估

为了在这个基准测试中进行评估，您的描述符算法应该输出一个.log文件，其中每一行是每对块之间的描述符距离(或对于某些算法，是非对应关系的置信度)。我们的Github工具包中包含一个示例.log文件(用于3DMatch)，以及一个针对验证集的示例评估脚本。错误率是在95%召回率下计算的误报率。

几何配准基准测试

在这里插入图片描述

类似于《室内场景的稳健重建》中的配准基准测试，这个基准测试评估了在场景重建背景下几何配准算法的性能。然而，与以往的工作不同，该基准测试使用的是真实的RGB-D扫描数据，而不是合成数据，旨在促进对现代通用深度传感器（如Microsoft Kinect、Intel RealSense）生成的深度数据具有鲁棒性的配准算法。

在这里插入图片描述

下载

这个基准测试包含了从RGB-D重建数据集的测试部分创建的八组场景片段。这些片段可以通过以下链接下载。每个片段都是一个3D点云表面，通过使用TSDF体积融合从50个深度帧集成而成，并保存为.ply文件。我们还提供了生成这些片段的融合代码。

在这里插入图片描述

评估

要评估您的几何注册算法，它应该确定每对非连续片段是否可以对齐。如果可以进行对齐，您的算法应将预测的刚性变换输出到日志文件中。有关日志文件的格式以及评估过程的更多详细信息，请参阅提供的文档此处。要从您的算法生成的日志文件计算精确度和召回率，您可以使用评估代码此处（参考位于“geometric-registration”目录中的Matlab脚本“此处”），或者参考提供的信息此处。我们特别关注能够在不需要初始对齐的情况下对齐片段的注册方法。

合成数据上的几何注册

我们还报告了3DMatch在由Choi等人于2015年CVPR上介绍的原始合成基准测试中的性能。在该基准测试中，3DMatch的召回率为65.1%，精确度为25.2%。要复现我们的结果，您可以下载用于合成基准测试的评估文件，涵盖以下场景：

livingroom1
livingroom2
office1
office2

您可以在此处找到在这两个基准测试中运行3DMatch的代码。此外，我们还提供了由3DMatch的几何注册流程以及与之进行比较的其他描述符生成的一些中间数据文件。这些文件包括所有片段的TDF体素网格、关键点和描述符向量。如果您希望通过设计更好的搜索算法（例如各种RANSAC变体）来改进几何注册结果，这些文件可能会很有用。您可以从以下链接下载这些中间文件：

RGB-D重建数据集

在这里插入图片描述

我们使用了几个现有的RGB-D重建数据集来训练3DMatch并生成评估基准。为了方便使用并与我们的代码（参见Github）兼容，我们将这些数据集转换为统一的文件结构和格式，并提供以下链接进行下载。如果您发现这些数据集有用，请引用它们的原始论文：

SUN3D：Xiao等人。SUN3D：使用SfM和物体标签重建的大空间数据库。
7-Scenes：J. Shotton等人。场景坐标回归森林用于RGB-D图像中的相机重定位。
RGB-D Scenes v2：Lai等人。用于3D场景标注的无监督特征学习。
BundleFusion：Dai等人。BundleFusion：使用在线表面重新集成的实时全局一致性3D重建。
Analysis by Synthesis：Valentin等人。学习在能量景观中导航。
SUN3D的重建算法：Halber等人。RGB-D扫描的精到粗全局配准。

下载所有场景的Bash脚本：download.sh
训练和测试场景的拆分：split.txt

注意：SUN3D场景是使用Halber等人的方法进行重建的。如果您使用了SUN3D场景，请同时引用他们的论文。

数据集格式

每个场景是一个包含一个或多个RGB-D视频序列的文件夹。文件夹的内容如下：

camera-intrinsics.txt - 包含深度相机内参的文本文件（3x3矩阵，齐次坐标表示）
seq-XX
• frame-XXXXXX.color.png - 24位PNG RGB彩色图像。
• frame-XXXXXX.depth.png - 16位PNG深度图像，与其对应的彩色图像对齐。深度以毫米（mm）为单位保存。无效的深度值为0。
• frame-XXXXXX.pose.txt - 包含帧的相机姿态的文本文件（相机到世界的变换矩阵，4x4矩阵，以齐次坐标和米为单位）