3D点云最新综述!目标检测、分割、配准、采样、去噪全都有!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

1a5196bf2173d2aae5f16c37436fb6e6.jpeg

0. 论文信息

标题:Advancing 3D Point Cloud Understanding through Deep Transfer Learning: A Comprehensive Survey

作者:Shahab Saquib Sohail, Yassine Himeur, Hamza Kheddar, Abbes Amira, Fodil Fadli, Shadi Atalla, Abigail Copiaco, Wathiq Mansoor

机构:VIT Bhopal University、University of Dubai、University of Medea、University of Sharjah、De Montfort University、Qatar University

原文链接:https://arxiv.org/abs/2407.17877

1. 摘要

三维点云(3DPC)技术已显著发展,并受益于深度学习(DL)的进步。然而,深度学习也面临着各种问题,包括数据或标注数据的缺乏、训练数据与测试数据之间存在显著差距,以及对高计算资源的需求。为此,深度迁移学习(DTL)被广泛研究,它通过利用从源数据/任务中获得的知识来训练目标数据/任务,从而降低了依赖性和成本。已提出了许多DTL框架,用于对齐从同一场景的多次扫描中获得的点云。此外,作为DTL的一个子集,领域自适应(DA)已被修改,以通过处理噪声和缺失点来提高点云数据的质量。最终,微调和DA方法已证明在解决点云数据固有的不同难题方面具有有效性。本文首次对这一方面进行了综述,全面概述了使用DTL和领域自适应(DA)理解3DPC的最新技术。因此,本文首先介绍了DTL的背景,以及数据集和评估指标。随后,引入了一个明确的分类法,并考虑了不同的知识迁移策略和性能等方面,进行了详细的比较。本文涵盖了各种应用,如3DPC目标检测、语义标注、分割、分类、配准、下采样/上采样和去噪。此外,本文还讨论了所提出框架的优缺点,识别了开放挑战,并提出了潜在的研究方向。

2. 引言

计算机视觉(CV)作为机器学习(ML)中一个不断发展的分支,继续吸引着人们的极大兴趣,该分支针对智慧城市、医学、自动驾驶、视频监控、场景理解、安全及安防等领域的不同问题进行研究。随着传感器技术的快速发展,3D传感器最近已被广泛采用,这增加了计算机视觉研究界对开发3D传感器数据处理方法的兴趣。此外,随着增强现实和虚拟现实(AR/VR)技术的使用,3D视觉问题变得更加重要,因为它们比2D视觉提供了更丰富的信息。通常,已使用多种3D传感器来获取3D数据,包括深度感知相机(如Apple Depth、RealSense和Kinect相机)、光检测和测距(LiDAR),后者用于移动测绘地面激光扫描和机载LiDAR。此外,当出现数据稀缺问题时,生成对抗网络(GANs)可用于增强数据。在此背景下,3D数据可以提供丰富的尺度、形状和几何信息,这些信息可以与2D图像相互补充,以更好地表示周围环境。

虽然表示3D数据的方法有多种,如体素网格、网格和深度图像,但3D点云(3DPCs)是最常用的。通常,3DPC表示保留了3D空间中的原始几何信息。此外,3DPC是数据点的集合,这些数据点以3D坐标表示物体的表面。在这方面,空间坐标用于表示数据点、表面法线和颜色信息及格式(如RGB、HSV等)。

此外,尽管3DPC可以被视为非欧几里得几何数据,但在实践中,它被划分为具有标准坐标系和全局参数化的小欧几里得子群。这种表示方法的成功之处在于它对变换和攻击(包括旋转、缩放、平移等)具有不变性,这使得它在提取对象特征时具有鲁棒性。此外,使用深度学习(DL)技术来提取3DPC数据并执行检测、分类、识别和检索等复杂任务,已经扩展了这些技术在许多研发领域的应用。通常,3DPC被广泛应用于计算机视觉(CV)任务,如对象识别、语义分割和场景理解。此外,它们还用于创建导航和定位所需的环境详细模型、建筑、景观和其他结构的详细地图和模型,以及设计和规划所需的建筑和其他结构的详细模型。此外,它们还可以用于检查和维护工业设备、基础设施和其他资产。此外,3DPC技术有助于在增强现实(AR)和虚拟现实(VR)应用中实现逼真且身临其境的体验。

传统的机器学习方法和最近的深度学习(DL)方法见证了快速增长,并吸引了研究人员,因为它们适用于许多现实生活中的应用,包括智能医疗、疾病诊断和医学图像分类、商业和营销、推荐系统、能源、农业、机器人技术等。这些学习算法的主要优势在于,它们训练出一个能够学习隐藏模式并可用于任何特定目的且具有高精度的模型。然而,随着时间的推移,研究界提出了一些问题。首先,这些学习算法需要大量的训练数据集,尤其是深度学习算法。其次,大多数深度学习模型都是基于监督学习的,因此需要大量的真实数据。第三,一个常见的假设是,用于训练的数据和将要处理的未来数据必须具有相同的分布并处于相同的特征空间中。在多个现实场景中,保持上述假设变得困难,有时甚至不可能。例如,在执行特定任务(如特定领域的分类)时,我们可能拥有另一个领域的必要训练数据,但这两个数据集可能具有不同的分布或特征空间。

此外,确保机器学习算法准确性能的一个关键因素是训练和测试所用数据集在分布和特征空间上的一致性。如果数据分布发生变化,则必须收集新的训练数据来从头开始重建模型。然而,这一过程不仅成本高昂,而且由于重新收集训练数据所面临的挑战,往往不切实际。因此,需要一种机制来降低重新收集训练数据的成本,最小化数据标注的成本,并在不需要大量训练数据的情况下仍能实现高性能。为此,提出了知识迁移的概念,它符合上述约束条件,并能显著提高性能。这种知识迁移机制被称为深度迁移学习(DTL)。图1简要说明了传统机器学习与DTL技术之间的区别。

d00f0f53924164f038fa251805d50a8d.png

一方面,将深度学习(DL)应用于三维点云(3DPC)带来了相当复杂的挑战,原因如下:(i)点密度和反射强度的变化,这受到物体与激光雷达(LiDAR)传感器之间距离的影响。(ii)传感器产生的噪声(如扰动和异常值)。(iii)由于物体之间的遮挡和杂乱背景导致的数据不完整。(iv)形状相似或反射相似的物体引起的混淆类别。另一方面,DL/DTL模型的挑战包括(i)排列和方向不变性,(ii)三维平移和旋转挑战,(iii)处理大规模数据集的难度,(iv)计算资源的保障,以及(v)性能低下。图2总结了与三维点云数据和基于DL/DTL的应用相关的任务和挑战。

4fb04aba4472fb88e95930111635d810.png

可以说,深度迁移学习(DTL)是深度学习(DL)最成功的应用案例之一。因此,人们发现,在一个丰富的源数据集(如ImageNet)上预训练深度学习网络,一旦在通常更小的目标数据集上进行微调,就可以帮助提升性能,这对语言和计算机视觉(CV)领域的许多应用都起到了重要作用。同样,也有多项研究探索了深度迁移学习在三维点云(3DPC)应用中的潜力,以应对上述挑战。这为我们提供了一个机会,来撰写第一篇综述文章,全面考察基于深度迁移学习的方法在推动我们对三维场景(如三维点云分割、三维物体检测、三维物体分类、三维点云配准等)理解方面的贡献。例如,深度迁移学习已被证明在多个方面有效,包括(i)利用从合成数据中学习的知识来改善真实激光雷达三维点云的语义分割;(ii)即使在训练数据有限的情况下也能实现三维点云的准确分类;(iii)缓解三维点云分类中的过拟合问题;(iv)减少三维点云数据集标注这一劳动密集型过程的工作量,以及其他好处。在这方面,本文首先介绍了深度迁移学习的背景,并进行了明确的分类。接下来,讨论了用于评估现有基于深度迁移学习的三维点云技术的数据集和评估指标。然后,根据不同方面概述了现有研究,并指出了它们的优缺点。之后,在提出未来研究方向之前,确定了在使用深度迁移学习处理三维点云时面临的挑战。

3. 主要贡献

综上所述,本文的主要贡献可以概括如下:

• 据作者所知,本文是首篇关于使用深度迁移学习(DTL)和领域适应(DA)进行三维点云(3DPC)应用的综述文章;

• 讨论了用于评估基于DTL的三维点云框架性能的现有数据集和评估指标;

• 引入了一个明确的分类体系,以概述现有的基于DTL的三维点云研究;

• 指出了在使用DTL进行三维点云理解任务时遇到的当前挑战;

• 提出了未来研究方向,这些方向有望在不久的将来吸引大量研究兴趣。

本研究受三维点云技术的最新发展的启发。虽然已有一些关于利用机器学习(ML)、深度学习(DL)和强化学习(RL)的主题综述,但据我们尽最大努力搜索,尚未发现专门探讨不同三维点云任务中深度迁移学习的综述文章。深度迁移学习技术的普及已经影响了研究人员,相关技术的范围不断扩大,并涵盖了许多最近的AI驱动研究。本研究使读者深入了解深度迁移学习如何被用于执行多种三维点云任务。本综述旨在解答表1中提出的研究问题。

8c3065181ae7c72c330d78c035672fc1.png fd2ac03613859ca258c6fcbda5b3f965.png

4. 文章架构

14ffa0e7cd19634a1978c8bfecc4fce1.png 62ac286ab1b6dee7f315819a3a5e48a3.png

5. 总结 & 研究方向

随着激光雷达(LiDAR)和RGB-D相机等3D扫描技术的飞速发展,捕获和处理3D点云(3DPC)数据在机器人、计算机视觉(CV)、虚拟现实和自动驾驶汽车等多个领域变得日益流行。另一方面,深度迁移学习(DTL)作为机器学习和深度学习领域的前沿技术,已成为一种强大的方法,可以利用预训练的深度神经网络(DNN)并将其知识迁移到新的3DPC任务中,以克服使用深度学习时遇到的多项挑战。为了阐明在3DPC中使用DTL的最新创新,本文全面回顾了使用DTL和数据增强(DA)进行3DPC理解的最新技术,包括3DPC对象检测、3DPC语义标注、分割和分类、3DPC配准、下采样/上采样以及3DPC去噪。在此过程中,本文引入了一个定义明确的分类法,并参考所采用深度学习模型的类型、获得的性能以及知识迁移策略(微调、DA、无监督域适应(UDA)等)等不同方面进行了详细比较。在展望未来之前,本文先讨论了所提出框架的优缺点,然后指出了待解决的挑战。最后,列出了潜在的研究方向。

经过多年的研究,点云理解已经取得了显著进展,但随着它在现实世界应用中的广泛应用,它也面临着新的挑战。其中一个主要挑战是传感器获取的点云之间存在部分重叠,这使得直接配准变得困难。尽管已经开发了一些在部分重叠下进行对齐的解决方案,但重叠率往往有限。因此,找到这一问题的全面解决方案是一个有价值且有前景的研究领域。此外,尽管结合了深度迁移学习(DTL)和传统方法的3D点云(3DPC)配准技术在某些方面取得了显著进展,但目前只能解决简单物体的对齐问题。例如,在处理复杂场景和大规模3DPC时,这些方法无法达到预期的效果,并继续采用传统算法。然而,这些算法具有随机性,且随着异常值的增加,迭代次数呈指数增长。通过将DTL和传统机器学习方法相结合,可以获得更好的结果。具体来说,传统机器学习方法具有透明性,而DTL方案在数据拟合方面表现出色。因此,未来研究的一个趋势是如何将两者的优势结合起来。

此外,由于不同的应用场景给3DPC场景理解算法带来了不同的挑战,因此需要对算法进行泛化。然而,鉴于目前的研究状况,很难提出一种通用的算法。例如,飞机的蒙皮非常大,表面光滑,且曲率特征很少。当在配准过程中使用基于特征的方法时,会发生显著的对齐错误。因此,为特定应用场景开发具有针对性、轻量级且高效的算法是未来一个具有吸引力的研究热点。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~


这里给大家推荐一门我们最新的课程《聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等》

8961bb9e5db41179b03751ab5afeeaea.pngdd3cdf1f7b46c959deafa1b4058c5270.pngccacfeb25c0e0e625fa3f9629cee6ed3.png

课程答疑

本课程答疑主要在本课程对应的鹅圈子中答疑,学员学习过程中,有任何问题,可以随时在鹅圈子中提问。

e489facda9f1ecb1512ec7b5429860c9.png
▲长按购买课程,前50名
享早鸟价,立减200元
f58eb8d4ee688dd18e44e0d61a1768ab.jpeg
▲长按添加小助理微信
cv3d007,咨询更多

备注:以上图片和视频部分来自网络,如果侵犯了您的权益,还请联系删除

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值