semantic3d.net:a new large-scale point cloud classification benchmark（学习笔记一）-CSDN博客

本文链接：https://blog.csdn.net/h_hbx/article/details/105914346

前言

在此之前看过的点云论文都是看一篇是一篇，未尝写过博客记录下学习心得，时间久了自己都记不得内容了，前段时间看到舍弟写的博客，遂觉自己也有必要将所看论文写成博客记录所获心得。本篇博客是将英文论文翻译成中文。以下为全文汉译。
未完待续，更新中……

semantic3d网络：一种新的大规模点云分类基准

Timo Hackela, Nikolay Savinovb, Lubor Ladickyb, Jan D. Wegnera, Konrad Schindlera, Marc Pollefeysb
a IGP, ETH Zurich, Switzerland - (timo.hackel, jan.wegner, konrad.schindler)@geod.baug.ethz.ch
b CVG, ETH Zurich, Switzerland - (nikolay.savinov, lubor.ladicky, marc.pollefeys)@inf.ethz.ch

摘要

本文提出了一种新的三维点云分类基准数据集，该数据集包含40多亿个人工标注的点，可作为数据饥渴（深度）学习方法的输入。我们也仔细认真的讨论了第一次提交的用于深层卷积神经网络的基准，这些基准相比于最先进的成果，已经展现出了卓越的性能提升。卷积神经网络已经成为计算机视觉和机器学习许多任务的实际标准，比如图像中的语义分割或目标检测，但由于缺乏训练数据，三维点云标记任务尚未取得真正突破。用本文提供的大量数据集，我们旨在缩小这个数据缺口，以帮助释放深度学习方法在三维标记任务上的全部潜力，我们的三维语义网络数据集由地面激光扫描仪获取的稠密点云组成，它包含8个语义类并且涵盖了广泛的城市户外场景：教堂、街道、铁路轨道、广场、村庄、足球场和城堡。我们描述了我们的标签接口，并且展示了我们的数据提供了更加稠密和完整的点云，而且相比于在研究社区已经获取到的数据，我们的数据标记点的总体数量要更高。我们进一步提供基线方法的说明和其与提交到我们在线系统的方法之间的比较。我们希望三维语义网络能够铺平深度学习方法在三维点云标注方面的道路，从而学习更丰富、更通用的三维表现形式，而仅仅几个月后的第一次提交就表明情况可能确实如此。

1.绪论

自(Krizhevsky et al.， 2012)的开创性论文以来，深度学习已经取得惊人的再次流行，该论文再现了(福岛，1980年，LeCun et al.， 1989年)的早期工作。特别是深度卷积神经网络（CNN）已经迅速成为一系列基于学习的图像分析任务的核心技术。在计算机视觉和机器学习方面绝大多数的先进方法都将CNNs作为它们的重要组成部分之一。它们在图像解译任务中的成功主要归功于（i）易于并行的网络架构，这种网络架构便于在单GPU上训练数百万张的图像。（ii）可以获取大型公共基准数据集，比如关于rgb图像的ImageNet(Deng等人，2009年，Russakovsky等人，2015年)和Pascal VOC(Everingham等人，2010年)数据集，或者针对rgb-d数据的SUN rgb-d（Song等人，2015）数据集。

虽然CNNs在图像解译方面有一个伟大的成功史，但在三维点云解译方面就不那么成功了。对于三维点云来说，使得点云的监督学习变得困难的原因是每个数据集拥有数百万个点的规模，并且这些点是不规则，非网格对齐的，在一些具有非常稀疏结构的位置处，还伴随着强烈的点密度变化（如图1）。

在这里插入图片描述

图1：基准数据集的示例点云，其中颜色表示类标签。

虽然现在的记录是直接的，但是主要的瓶颈是生成足够多的人工标注训练数据，这是当代机器学习（深度学习）学习好的模型所必需的，它可以很好地推广到新的、未见过的场景。由于额外的维度，在三维空间中的分类器参数规模要比在二维空间中的规模更大，并且特殊的三维效果，比如遮挡或点密度的变化，导致完全相同的输出类别有许多不同的形态。这使得训练好的通用分类器分类效果变差，并且在三维空间中我们通常需要比二维空间更多的训练数据。相比于图像，即使是未经训练过的用户也能很容易的对图像进行注解，而三维点云则更难去解译。浏览三维点云更加的耗时，而且剧烈的点密度变化加重了对场景的解译。

为了加速点云处理的强大算法的开发，我们提供了（我们所知道的）所收集的迄今规模最大的地面激光扫描数据，该数据附有单点级地面真实语义的标注。总计有超过4×109个点和8个类的类标签。数据集被分成大小大致相同的训练集和测试集。扫描是有挑战性的，不仅是因为它们每条扫描线上高达约4×108个点，而且还因为它们的高测量分辨率和长测量范围，导致极端的密度变化和大面积的遮挡。为了方便使用基准测试，我们不仅提供免费可用的数据，还提供一个自动的在线提交系统以及公开提交方法的结果。该基准还包括基准线，一个遵循基于特征值的多尺度特征提取标准范式，然后使用随机森林进行分类，另一个遵循基本的深度学习方法。此外，第一次提交的基准，我们也简要讨论。

2.相关工作

基准工作在地理空间数据社区，特别是在ISPR中有着悠久的传统。最近的工作包括，例如，ISPRS-EuroSDR高密度航空图像匹配3基准，旨在评估倾斜航空图像的密集匹配方法（Haala，2013Cavegn等人，2014），以及ISPRS城市目标检测和重建基准测试，其中包含了一些不同的挑战，如航空图像的语义分割和三维物体重建（Rottensteiner等人，2013）。

在计算机视觉中，包含数百万张图像的非常大规模的基准数据集已经成为基于学习的图像解译任务的标准。已经引入了各种数据集，其中许多是为特定任务量身定制的，有些是连续几年作为年度挑战的基础数据集（例如ImageNet、Pascal VOC）。旨在促进研究图像分类和目标检测的数据集在很大程度上依赖于从互联网上下载的图像。基于网络的图像一直是基准发展的的主要驱动力，因为不需要为数据集的生成完成昂贵的、专门的摄影活动。虽然这使得可以把基准图像从数百张扩展到数百万张，但是通常给这些图像的注释都很弱，必须考虑大量的标签噪声。此外，人们可以假设，互联网图像构成了一个非常普遍的图像集合，对特定传感器、场景、国家、目标等的偏袒较小，这使得能够训练出更丰富的，泛化更好的模型。

最早成功的大规模图像目标检测尝试之一是超过8000万张小图像（32×32像素）的tinyimages（Torralba等人，2008年）。图像语义分割的一个里程碑和仍然广泛使用的数据集是著名的Pascal VOC（Everingham et al.，2010）数据集和挑战，它被用于训练和测试当今许多著名的、最先进的算法，如（Long et al.，2015，Badrinarayanan et al.，2015）。另一个比较新的数据集是MSCOCO4，它包含3万个带有注释的图像，这些注释顾及到了上下文图像分割，目标识别和给图像添加说明文字。当今计算机视觉中最流行的基准之一是ImageNet数据集（Deng等人，2009年，Russakovsky等人，2015年），它使卷积神经网络在计算机视觉中开始流行起来（Krizhevsky等人，2012年）。它包含根据词汇网络层次结构组织的超过14×106张图像，其中单词被按照认知同义词分组。

微软Kinect推出了流行的低成本游戏设备，由此产生了几个大型rgb-d图像数据库。流行的例子是纽约大学深度数据集V2（Silberman等人，2012年）或SUN RGB-D（Song等人，2015年），它们为对象分割和场景理解提供标记的RGB-D图像。与激光扫描仪相比，低成本的结构光rgb-d传感器具有更短的测量范围、更低的分辨率，并且由于太阳光的红外光对投影的传感器模式的干扰，因此rgb-d传感器在室外工作状态很差。

据我们所知，至今不存在公开可用，且同前文所述视觉基准规模大小的激光扫描数据集。因此，许多最近为体素网格所设计的卷积神经网络（Brock et al.，2017，Wu et al.，2015）使用了从CAD模型人工生成的数据——ModelNet（Wu et al.，2015），它是一个相当小的人造数据集。因此，最近的集成方法（例如（Brock等人，2017））在ModelNet10上达到97%以上的性能，这清楚地表明由于数据有限，模型过拟合了。

这些现有的少量激光扫描数据集主要是通过移动道路测量设备或机器人（如DUT1（Zhuang等人，2014）、DUT2（Zhuang等人，2015）或KAIST（Choe等人，2013）获得的，这些数据集较小（<107点），并且不可公开获取。公开可获取的激光扫描数据集包括奥克兰数据集（Munoz等人，2009年）（小于2×106点）、悉尼城市物体数据集（Deuge等人，2013年）、巴黎街夫人数据库（Serna等人，2014年）和来自IQmulus&TerraMobilita竞赛的数据（Vallet等人，2015年）。它们都有一个共同点，那就是使用移动道路测量车获取的三维激光雷达数据，这种车提供的点密度比我们这种典型的静态扫描要低得多。它们的数据量也相对较小，以致于监督学习算法很容易过拟合。目前大多数可用的点云数据集都没有经过一个全面、透明的评估，该评估可在互联网上公开、不断更新，并列出所有提交的基准。

使用本文中提出的semantic3D.net基准，我们旨在缩小这一差距。它提供了最大的有标签的三维点云数据集，大约有40亿个人工标记的点，且附有噪声评价，并不断更新提交的内容。这是第一个全面支持在真正的三维激光扫描数据上进行深度学习的数据集，它里面每个点都具有有高质量的人工分配的标签。

3.目标

给定一组点（这里：来自于静态地面激光扫描仪的密集扫描），我们希望为每个点推断出一个单独的类标签。我们提供了三种基线方法，用于代表最近用于该任务的典型分类方法。

i）二维图像基线：

许多最先进的激光扫描仪也可以为扫描的场景获取颜色值甚至整个彩色图像。彩色图像可以添加可能有助于分类的其他实物证据。首先，朴素基线只对二维彩色图像进行分类，而不使用任何深度信息，从而建立了一个链接到大量关于二维语义图像分割的文献。现代的方法使用深卷积神经网络作为工作的基础。像SegNet（Badrinarayanan等人，2015）这样的编码-解码器架构能够一次推断出整个图像的标签。深层结构也可以与条件随机场（CRF）结合（Chen等人，2016）。我们在第3.1节中的基线方法涵盖了基于图像的语义分割。

ii）三维协方差基线

一种利用三维信息的更加具体的方法是直接处理点云。我们使用最新实现的标准分类管道，即从3D（多尺度）邻域中提取手工制作的特征，并将其输入到判别学习算法中。典型特征基于点邻域的协方差张量（Demantke等，2011）或随机直方图集（Blomley等，2014）来编码表面特性。另外，高度分布可以通过使用圆柱邻域进行编码（Monnier等人，2012年，Weinmann等人，2013年）。第二种基线方法（第3.2节）代表这一类别。

iii）三维卷积神经网络（CNN）基线

将深度学习应用于三维点云是一个相当明显的扩展，它主要使用体素网格来获得规则的邻域结构。为了有效地处理密度变化很大点云中的大规模点邻域，最近的研究使用了自适应邻域数据结构，如八叉树（Wu et al.，2015，Brock et al.，2017，Riegler et al.，2017）或稀疏体素网格（Engelcke et al.，2017）。在第3.3节中，我们第三种基线方法是一个直接实现的基本的三维体素网格卷积神经网络。
在这里插入图片描述图2：第一行：带有标签的地面实况投影成图像。第二行：使用图像基线进行分类的结果。白色：未标记像素，黑色：没有相应三维点的像素，灰色：建筑物，橙色：人造地面，绿色：天然地面，黄色：低植被，蓝色：高植被，紫色：硬景观，粉色：汽车

3.1二维图像基线

我们使用三次幂将扫描线的颜色值转换为单独的图像（没有深度）。Ground truth标签也从点云投影到图像空间，使得三维点标记任务变成二维RGB图像的纯语义图像分割问题（图2）。我们选择关联层次字段方法（Ladicky等人，2013年）进行语义分割，因为它已经证明能够为各种任务（例如（Montoya等人，2014年，Ladicky等人，2014年）提供良好的性能，并且在它的最初实现中是有效的。

该方法的工作原理如下：对四种不同类型的特征texton（Malik et al.，2001）、SIFT（Lowe，2004）、局部量化三值模式（Hussain and Triggs，2012）和自相似性特征（Shechtman and Irani，2007）进行了密集的逐像素提取。使用标准K-均值聚类，每个特征类别分别聚类成512个不同的模型，该模型与典型的词袋表示相对应。对于一幅图像中的每一个像素，特征向量是在200个不同大小的固定矩形集合上的词袋直方图的串联。这些矩形随机放置在像素周围的扩展邻域中。我们使用多类boosting（Torralba et al.，2004）作为分类器，发现最具鉴别能力的弱特征，如（Shotton et al.，2006）论文所述。为了在不丢失锐利对象边界的情况下添加局部平滑，我们在超像素内部进行平滑，并在其边界处支持类转换。按照（Ladicky等人，2013）论文的描述，采用三组由粗到精的参数集合，经过均值偏移（Comaniciu和Meer，2002）提取超像素。利用每个像素的词袋的表现形式所组成的特征向量预测重叠超像素可能的类。如（Kohli等人，2008年）这篇文章提出预先在像素和超像素上面进行平滑，再基于像素和超像素的进行分类的分类器，是以概率的方式在一个条件随机场框架下结合在一起的。关联使用基于移动生成（Boykov等人，2001）图割的算法（Boykov和Kolmogorov，2004）和高阶势的适当图构造（Ladicky等人，2013），找到关联层次优化问题的最可能解。

3.2三维协方差基线

第二个基线的灵感来自（Weinmann等人，2015年）的论文。它利用多尺度特征和判别学习，直接从三维点云中提取类标签。同样，我们可以访问原始实现。该方法使用多尺度邻域的有效近似，即点云被亚采样到多分辨率金字塔中，使得每一层都有恒定的少量邻域捕获多尺度信息。多尺度金字塔是通过采用等间距体素网格滤波方法生成的。

在每一层提取的特征集是Weinmann等人（2013）描述的集合的扩展。它使用每个点邻域协方差的特征值和特征向量的不同组合来获得不同的几何曲面特性。此外，添加了基于竖直圆柱邻域的高度特征，以强调重力方向的特殊作用（假设扫描线向往常一样与垂直方向对齐）。请注意，我们不使用颜色值或扫描仪的强度。这些在点云中并不总是可用的，根据经验我们发现，它们并不能改善方法的结果。作为分类器，我们使用一个随机森林，通过网格搜索和五层交叉检验找到最优参数。详情请参阅（Hackel等人，2016年）。

3.3三维卷积神经网络（CNN）基线

我们根据最近的VoxNet（Maturana and Scherer，2015）和ShapeNet（Wu etal.，2015）的3D编码思想设计了点云分类任务的基线。管道插图如图3中所示。
在这里插入图片描述

图3 我们的深度神经网络管道

在处理之前我们不生成全局三维体素网格，而是在每个扫描点创建16×16×16的立方体体素。我们在5种不同的分辨率下进行这项工作，其中体素大小从2.5厘米到40厘米（乘以2的幂），并将空体素细胞编码为0，非空体素细胞编码为1。因此，CNN的输入被编码为多维张量，每个扫描点有5×16×16×16个立方体条目。

这五个尺度中的每一个尺度分别由一个类似VGG的网络路径处理，该路径包括卷积层、池化层和ReLU层。通过两个全连接层，这5个网络路径被最终连接成一个表达形式。第二个全连接层的输出是一个8维向量，它包含了这个基准测试中8个类的每个类的得分。使用soft-max函数，将类的得分转换为类的条件概率。

在详细描述网络结构之前，我们先介绍以下符号：
c(i,o)表示具有3×3×3滤波器的卷积层、i输入通道、o输出通道、每个边界处以步长为1进行补零。f(i,o)表示全连接层。r表示一个非线性的ReLU，m代表感受野为2×2×2，每维步长为2的最大容积池。d代表0.5概率的退出，s代表软soft-max层。

我们的三维CNN架构将这些组件组合成类VGG的网络结构。如最近的工作（He et al.，2016）中所建议的，我们选择卷积层中的滤波器尺寸尽可能小（3×3×3），以使每层的参数数量最少，从而降低过度拟合的风险和计算成本。

对于这5个独立的不同分辨率的网络路径，我们使用类VGG（Simonyan和Zisserman，2014）网络结构:

(c(1; 16); r; m; c(16; 32); r; m; c(32; 64); r; m).

在尺度之间的输出结果是串联起来的向量，并且在顶部用两个全连接层来预测类的响应：

(f(2560; 2048); r; d; f(2048; 8); s):

我们使用标准的多类交叉熵损失函数用于训练。深度学习是非凸的，但它可以通过随机梯度下降（SGD）进行有效的优化，从而产生具有最先进预测性能的分类器。SGD算法使用从每批次处理的几百个点中，随机抽样出一小部分来迭代更新CNN的参数。我们使用流行的adadelta算法（Zeiler，2012）进行优化，这是随机梯度下降的扩展（Bottou，2010）。

我们使用一个100个训练样本（即，点）的小批，其中每一批样本都是随机和均衡的（每个类包含相同数量的样本）。我们对74700个批次进行了训练，并从一个具有代表性的2.59亿点的大点云（sg28_4）中抽样出了训练数据。卷积神经网络的一个标准预处理步骤是数据增广（augmentation），以扩大训练数据集和防止过拟合。在此，每经过100个批次后，我们用围绕z轴的随机旋转来扩充训练集。在实验中的结果证明，额外的训练数据并没有提高性能。这表明在我们的案例，我们更倾向于处理欠拟合(而不是过拟合)，例如，我们的模型缺乏在现有训练数据中充分捕获所有证据的能力。因此，我们避免进一步可能的增广，如随机丢失点或添加噪声。我们的网络是用C++和Lua实现的，并且使用Torch7框架（CalbBER等，2011）进行深度学习。此基线的代码和文档的公开获取地址为https://github.com/nsavinov/semantic3dnet。

4数据

我们公布的30个地面激光扫描共包含约40亿个3维点，包含城市和乡村场景，如农场、市政厅、运动场、城堡和市集广场。为了防止分类器的过拟合，我们特意选择了各种不同的自然场景和人造场景。所有公布的场景都是在中欧拍摄的，并描述了典型的欧洲建筑，如图4所示。测量级激光扫描仪用于记录这些场景。在后处理步骤中，通过部署一个高分辨率立方体贴图（由相机图像生成）来执行着色。一般来说，静态激光扫描具有非常高的分辨率，能够在低噪声的状态下测量长距离。特别是与从运动结构管道或类似Kinect的结构光传感器获得的点云相比，激光扫描仪实现了更高的数据质量。
在这里插入图片描述

图4 示例数据集，强度值（左）、rgb颜色（中）和类标签（右）。

记录数据的扫描仪位置选择与通常在现场所做的一样:对于配准只需要有很少的扫描重叠度，以便在最短的时间内记录场景。这种扫描位置的自由选择意味着没有基于点密度和类分布的先验假设。每个场景我们公布了有小重叠的3个激光扫描。利用目标估计同一位置激光扫描的相对位置。
在这个基准挑战中，我们使用了以下8个类，涵盖：
（1）人造地形：主要是人行道；
（2）自然地形：大部分为草；
（3）高植被：树木和大灌木丛；
（4）低植被：花或小于2米的小灌木丛；
（5）建筑物：教堂、市政厅、车站、公寓等；
（6）剩余硬景观：如花园墙壁、人工喷泉、河岸等的混合类；
（7）扫描伪影:在静态扫描的记录过程中，动态移动的对象产生的伪影；
（8）汽车和卡车。
这些类中的一些是不明确的，例如一些扫描伪影也可能用于汽车或卡车，以及很难区分大小灌木丛。然而，这些类在很多应用中是很有用的。请注意，在大多数应用中，类7扫描伪影用启发式规则集过滤。在这个基准中，我们希望部署机器学习技术，因此不执行任何启发式预处理。在我们看来，大数据集之所以重要有两个原因：a）通常，现实世界中的扫描数据集很大。因此，对实际问题有影响的方法必须能够处理大量的数据。b）在使用能够表示学习的现代推理技术开发方法时，大型数据集尤其重要。由于数据集太小，好的结果会给人留下过拟合的疑虑。另一方面，不令人满意的结果，很难被解释为进一步研究的指导方针:这些错误是由于方法的缺陷，还是仅仅是由于缺乏足够的训练数据导致的?

4.1点云标注

通常为3维数据贴标签的策略为：首先计算一个过分割，其次是分段标记。与其不同的是我们分别为每一个点分配一个类标记。尽管这种策略更为劳动密集，但它能够避免继承来自于分割方法中的错误，更重要的是，在使用数据进行训练时，分类器不会学习分割算法中的人为制造的规则。一般来说，手工标记点云比图像更困难。主要问题是，在2维显示器上从数百万个没有清晰邻域/曲面结构的3维点的集合中，选择一个3维点着实困难。我们测试了两种不同的策略：
3维注释：我们采用迭代过滤策略，在这里我们手动选择几个点，为这些数据拟合一个简单的模型，删除模型的异常值，然后重复这些步骤，直到内部所有的点都属于同一个类为止。通过这个步骤，可以在几秒钟内选择多所大型建筑物，苏黎世理工学院的学生助理用这种方法标记了一小部分点云。
2维注释：用户旋转点云，固定2维视图并绘制一个闭合多边形，该闭合多边形将点云分割为两部分（多边形的内部和外部）。常常包含一部分需要被舍弃的背景的点。这个过程重复几次，直到所有剩余的点都属于同一个类。最后，所有点都被分成对应于感兴趣类的不同的层。这个2维程序与现有软件包（Daniel GirardeauMontaut，CloudCompare，2016）很好地协同工作，因此它可以比3维工作流程更容易地外包给外部贴标签的人。我们对所有外包注释的数据集使用此过程。

表1：全数据集上的Semantic3d基准结果：3维协方差基线TMLC-MS、2维RGB图像基线TML-PC和首次提交的HarrisNet和DeepSegNet分类的IoU：（1）人造地形，（2）自然地形，（3）高植被，（4）低植被，（5）建筑物，（6）硬景观，（7）扫描伪影，（8）汽车。*由于扫描伪影不存在于图像数据中，因此在二维分类中被忽略。

在这里插入图片描述
表2：简化数据集上的Semantic3d基准结果：3维协方差基线TMLC-MSR、2维RGB图像基线TML-PCR和我们的3维 CNN基线DeepNet。TMLC-MS R与TMLC-MS是相同的方法，TMLC-PCR和TMLC-PC也是如此。在这两种情况下，R都表示精简数据集上的分类器。分类IoU：（1）人造地形，（2）自然地形，（3）高植被，（4）低植被，（5）建筑物，（6）硬景观，（7）扫描伪影，（8）汽车。*由于扫描伪影不存在于图像数据中，因此在二维分类中被忽略。

5评价

我们遵循Pascal VOC challenge (Everingham et al.， 2010)对主要的分割评估方法的选择，并在所有类上使用 IoU的平均值。假设类用{1,…,N}中的整数编号，其中N为类的总数。设C是所选择的分类方法的N×N混淆矩阵，其中每个条目C i j是将标注为i类预测为j类的数目。那么每一个i类的评估方法定义为：
在这里插入图片描述
因此，我们的基准的主要评估方法是

我们还报告了每一个i类的IoUi和总体精度。

作为辅助方法并提供混淆矩阵C。最后，要求每个参与者指定对测试集进行分类所需的时间T以及用于实验的硬件。此度量对于了解该方法在实际场景中的适用性非常重要，在实际场景中通常需要处理数十亿个点。
对于需要计算的方法，我们用一个由公布的测试数据的子集来减小计算量的挑战。对于全部的挑战，我们的基线方法和提交的结如表1所示，减小的挑战如表2所示。在三种已公布的基线方法中，基于协方差的方法优于CNN基线和基于颜色的方法。由于其计算成本，我们只能在减少的数据集上运行自己的深度学习基线DeepNet。我们期望一个容量更大的网络能表现得更好。两种3D CNN方法DeepSegNet和HarrisNet的全部挑战结果（遗憾的是，尚未发表）已经以各自12%的显著优势（表1）超过我们的协方差基线。这表明，如果有足够的数据可用于训练，深度学习似乎也适用于点云。这是我们的基准已经开始工作并产生进展的第一个迹象。

6基准统计

测试和训练集中的类分布非常相似，如图5a所示。有趣的是，大多数样本的类都是人造地形，因为为了方便起见，野外的操作人员，倾向于将扫描仪放置在铺设平坦的地面上。还记得点密度随着点到扫描器的距离的二次方递减，这样许多样本都距离扫描器比较近。训练样本与测试样本最大的差异出现在类建筑上（class building）。然而，迄今为止，这似乎没有影响到提交文件的执行情况。最困难的类，扫描伪影和汽车仅仅有少量训练和测试的样本，并且可能有多种多样的目标形状。扫描伪影可能是最难的一类，因为伪影的形状主要取决于扫描过程中物体的运动。请注意，经过与专家们的讨论，应景观类被设计为混合类，它包含了除房屋、汽车、路面之外的各种各样的人造物体。

在这里插入图片描述

图5:0(a)所有扫描中每个类的点数。(b)相邻扫描重叠部分中估计的错误真标签。

为了直观的了解人工获取标签的质量，我们还检查了人类标注者之间的标签一致性。这提供了一种指示性的度量有多少标注者在数据标签方面一致的方法，并且可以看做是对手动标注精度的内部检查。我们粗略估计了在同一场景的不同扫描重叠的区域中，不同人类标注者的标签一致性。因为我们不能完全排除某些重叠区域，可能是由同一个人标记的（贴标签是外包的，因此我们不确切知道是谁标注了什么），所以这只能被视为一种指示性度量。回想一下，可以通过场景中的人工标记准确地建立相邻扫描的重叠。即使扫描校准是完美无误的，在两个扫描之间也不存在点与点的对应，因为从两个不同位置获取的扫描点不会恰好落在同一个点上。因此，我们必须使用最近邻搜索来找到点对应关系。此外，并非所有扫描点在相邻扫描中都有对应的点。距离上以5厘米为阈值，用于忽略那些不存在对应关系的点。一旦建立了点对应关系，就有可能将真实标签从一个点云转移到另一个点云，并且计算一个混淆矩阵。注意，这种对应关系的定义不是对称的，点云A在点云B中的点对应关系不等于点云B在点云A中对应关系。对于每一对，我们计算两个IoUi的值，结果表明最大的标签分歧小于5%。当然，在移动物体上找不到对应关系，因此我们在图5b中的评估中忽略了扫描伪影的类别。

7结论与展望

semantic3D.net基准提供了一套大规模高质量的地面激光扫描数据集，其中有40多亿个人工标注的点和一个标准化的评估框架。该数据集已于近期发布，虽然提交的数据很少，但我们乐观地认为，这种情况在未来会有所改变。首次提交的资料已经表明，最终CNNs开始在大型3维激光扫描上优于更多传统的方法，例如协方差基线。我们的目标是，在此基准上提交的资料将更好地比较和洞察，点云处理方面的不同分类方法的优缺点，并希望有助于长期指导研究工作。我们希望该基准能够满足研究社区的需求，并成为开发新的、高效和准确的三维空间分类方法的主要资源。