A survey on weakly supervised 3D point cloud semantic segmentation
3. ACQUISITION SENSORS AND DATASETS
3.1 Acquisition sensors
用于三维点云语义分割任务的数据集由各种传感器采集。不同传感器的应用场景和所采集数据的属性各不相同;因此,本文将介绍一些常用的数据采集传感器。
3.1.1 RGB‐D cameras
RGB-D 摄像机能够捕捉 RGB 图像并测量像素间距信息。有了已知的相机中心点位置,该相机就能获得每个像素点在深度图中的三维空间位置,并利用该位置生成点云数据[69]。然而,RGB-D 相机并不适合室外应用,存在有色物体、表面光滑的物体和半透明物体会降低测量数据的精度。因此,该相机主要用于室内条件下的数据采集。
3.1.2 Laser scanners
激光扫描仪与深度摄像头不同,是利用激光能量来测量距离的。根据安装位置的不同,这些传感器可分为三类:移动激光扫描仪(MLS)、空中激光扫描仪(ALS)和静态地面激光扫描仪(TLS)。移动激光扫描仪主要将系统安装在可移动物体(主要是汽车)上,一般由三维激光扫描仪、GNSS、IMU 和相机组成;与其他类型的扫描仪相比,其优势在于能够生成超高密度的点云[70]。与激光扫描仪相比,空中激光扫描仪安装在飞行平台上,其中包含许多组件。由于离地面的距离和其他因素,生成的点云通常不准确,并且缺乏光谱信息。研究人员已经建造了多光谱航空成像仪,可以更好地收集来自水、植被和阴影的数据,以解决这一问题[69]。
TLS 通常放置在静态三脚架上,获取数据的效率较低,且无法记录移动物体;但其数据的准确性很高。与其他两种类型不同的是,TLS 通常缺乏成像单元系统,因此很难直接对齐在不同扫描位置获取的数据 [69,70]。不同平台上的激光扫描仪为同一项目采集的数据在点密度、遮挡和分辨率方面会有很大差异,因此需要为不同的工作选择不同的数据采集和处理策略。
3.1.3 UAVphotog rammetry
从光谱图像直接生成点云的无人机摄影测量方法已进入新的发展阶段,建议采用多视图立体视觉和运动结构的混合方法[71]。无人机摄影测量首先要规划飞行路径,然后使用光学成像设备捕捉多个航空图像序列,并采用 SfM-MVS 方法进行重组以获得点云数据。与激光扫描仪相比,无人机数据采集成本更低,更实用[66]。RGB-D 摄像机能够捕捉色彩和深度信息,但其测量精度会受到物体出现的影响,而且它们只适用于室内场景;移动激光扫描仪的应用最为广泛,能够生成高密度点云;ALS 收集的数据精度较低,而且通常不包含光谱信息。与激光扫描仪相比,无人机摄影测绘更经济、更实用。
3.2 Public datasets
构建有效的数据集是验证算法有效性的保证。随着数据采集技术的发展,人们提出了各种公共数据集,以更好地促进三维语义分割研究。
3.2.1 iQmulus
iQmulus数据集[58]于2013年1月获得,使用的是法国国家测绘局(IGN)为法国巴黎第六区开发的MLS系统Stereopolis II,并由MATIS实验室提供人工标注协助。该数据集包括3亿个点和22个分类,每个点都包含标签和分类信息,可用于点与点之间的检测、分割和分类评估。然而,精确度对于目前的研究状况来说,IQmulus 数据集的规模是不够的。
3.2.2 vKITTI
VirtualKITTI (vKITTI)[59]是由法国施乐研究中心的计算机视觉小组和亚利桑那州立大学的研究团队于 2016 年开发的一个完全标记、逼真和多样化的合成视频数据集。该数据集包括 13 个语义类别、35 个合成视频和共计 21,260 个帧,可用于评估对象检测、多目标跟踪和场景级或实例相关语义分割等任务的性能。
3.2.3 S3DIS
S3DIS [56]是斯坦福大学利用三座不同建筑的物质创建的大型室内数据集。该数据集由五个具有不同特征的区域组成,总面积为 6020m 2,其中只有一个区域有多个楼层。S3DIS 有超过 2.15 亿个点和 13 个语义类别,包括天花板、地板、墙壁、梁、柱、窗户、门、桌子、椅子、沙发、书柜、木板和杂物。
3.2.4 ScanNet
ScanNet 有 20 个语义类别和来自 707 个不同空间的 1513 个场景;它还标注了三维相机姿态、表面重建和语义分割方面的信息。
3.2.5 Semantic 3D
Semantic3D [60]是使用 TLS 收集的大型室外城市数据集,包含约 40 亿个注释点和 8 个语义类别:教堂、街道、铁轨、广场、村庄、足球场和城堡。
3.2.6 TUM City Campus
德国慕尼黑大学提出了 TUMCity Campus 数据集[61],该数据集包含超过 17 亿个点和 9 个类别。其中,MLS1-TUM 城市校园数据集的采集车配备了四个激光雷达传感器、两个 Velodyne HDL-64E、两个额外的 Velodyne VLP-16 Puck、八个相机和一个红外相机[72]。
3.2.7 Paris‐Lille‐3D
巴黎-里尔-3D[62]是巴黎高科矿业公司利用MLS 采集的城市点云数据集,可用于物体检测、分类和分割。该数据集是分为三个部分,包含 1.43 亿个点和 50 个语义类。
3.2.8 SemanticKITTI
SemanticKITTI [63]是一个大型室外场景数据集,由德国波恩大学用MLS收集并进行了大量注释。该数据集包含 4.549 亿个点和 28 个语义类,可区分移动和非移动车辆及人类。
3.2.9 Toronto‐3D
多伦多-3D[64]是一个用于城市道路语义分割的大规模激光雷达数据集,该数据集使用MLS获取,包含约 7830 万个点和 8 个语义类别。除了定位和标签外,该数据集还包括 RGB、强度和 GPS 时间等信息。
3.2.10 DALES
DaytonAnnotatedLiDAREarthScan(DALES)[65] 是一个基于ALS 采集的数据集,包含 50 多亿个人工标注点和 8 个分类。
3.2.11 SensatUrban
SensatUrban [66]是在城市范围内使用无人机摄影测量收集的点云数据集。它包含英国三个城市的近 30 亿个点,覆盖 7.6km 2 的范围,每个点都标注了共 13 个语义类别。
3.2.12 Paris‐CARLA‐3D
巴黎-CARLA-3D[67]是MLS 获取的室外点云数据集,由两组数据组成:一组是来自开源 CARLA 模拟器[73]的合成数据,包含 7 亿个点;另一组是在巴黎市获取的数据,包含 6000 万个点,因此被称为巴黎-CARLA-3D。
3.2.13 STPLS3D
STPLS3D [68]是一个具有丰富注释的大尺度合成三维航空摄影测量点云数据集,其中包含超过 16km 2 的地貌景观和多达 18 个语义类别和 14 个实例类别。
3.3 Evaluation metrics
评估三维语义分割结果的常用指标包括总体准确率(OA)、平均类准确率(mAcc)和平均交叉-重叠-联合(mIoU)。假设 K 是类的总数,TP 是真阳性,FP 是假阳性,FN 是假阴性,TN 是真阴性,则这三个评价指标可按如下方式计算[66]:
4.EXPERIMENT RESULTSAND ANALYSIS
为了比较和分析现有的弱监督三维语义分割研究,本文在表 3 中汇编了每种方法在公开数据集上的主要结果,并得出以下结论:
1.每种方法都选择了不同的监督方法和标注形式,因此很难只根据结果来比较性能,因此值得研究如何得出合理的结论。
2.二维监督的这些分割结果似乎并不落后,但近年来公共数据集的发展使得三维微调监督的性能更加稳定和强大。
3.由于数据集的大小等特征差异较大,最好选择多个基准进行测试,以更好地评估方法的稳健性。4.研究基于伪三维标注的方法是当前最热门的研究方向,未来的研究必须关注如何更好地保留标注点中真正有用的信息,并生成更准确的伪标注。
5.目前的弱监督方法仍主要集中在室内分割任务上,但在实际应用中,研究人员主要面对的是具有庞大数据集的室外场景,因此有必要进一步研究大尺度点云的弱监督语义分割。
6.一些研究已经开始从连续帧点云中学习 4D 细节[35],并将 4D 细节纳入了 "点云 "中[36]。可以进一步研究空间-时间信息,以确定能否获得更好的分割结果。值得注意的是,这些方法只适用于特定的数据集和环境。
7.重要的是要研究如何更有效地处理所获数据,以提高数据集的可用性和训练模型的稳健性,因为不同传感器收集的数据具有不同的特征。
5 CONCLUSION
本文概述了基于弱监督三维点云语义分割独特特征的通用算法框架,并深入讨论了每种方法所选策略的思路、优点和缺点。此外,本文还概述了常用的数据采集传感器和基准数据集,并总结了每种方法在公共数据集上的性能。