【论文阅读】基于深度学习的三维点云分类:系统调查与展望

基于深度学习的三维点云分类:系统调查与展望 - ScienceDirectDeep learning-based 3D point cloud classification: A systematic survey and outlook基于深度学习的三维点云分类:系统调查与展望 - ScienceDirect

突出

•  我们首先对3D数据进行详细介绍,并对点云进行更深入的解释,供读者理解,然后给出用于点云分类的数据集及其获取方法。

•  我们总结了最近发表的关于点云分类评论的研究,在此基础上补充了最先进的研究方法。

•  我们根据分类讨论方法子类别的优点和局限性。这种分类更适合研究人员根据实际需要探索这些方法。

•  我们给出了评估指标和方法的性能比较,然后分析了该领域的一些当前挑战和未来趋势。

抽象

近年来,点云表示已成为计算机视觉领域的研究热点之一,并已广泛应用于自动驾驶、虚拟现实、机器人等多个领域。尽管深度学习技术在处理常规结构化 2D 网格图像数据方面取得了巨大成功,但在处理不规则、非结构化点云数据方面仍然存在巨大挑战。点云分类是点云分析的基础,许多基于深度学习的方法已广泛应用于这项任务。因此,本文的目的是为该领域的研究人员提供最新的研究进展和未来趋势。首先,我们介绍点云获取、特征和挑战。其次,我们回顾了3D数据表示,存储格式和用于点云分类的常用数据集。然后,我们总结了基于深度学习的点云分类方法,并补充了最近的研究工作。接下来,我们比较和分析主要方法的性能。最后,我们讨论了点云分类的一些挑战和未来方向。

关键字:深度学习;点云;三维数据;分类

 1 引言

机器学习的分类器(支持向量机(SVM),AdaBoost随机森林(RF))

      ↓   通过综合上下文信息解决了噪声问题

机器学习的分类器(随机场(CRF)、马尔可夫随机场(MRF))

      ↓  直接处理点云

深度学习Pointnet

点云数据的稀疏性和无序性使得难以获得点云的局部或全局特征。直接处理原始点云的方法不能局限于过去的卷积、图或注意力机制的分类机制因此,我们在原始点云的基础上探索了局部特征和全局特征机制,并对基于点的方法进行了更具体的分析,重点介绍了近年来最新的研究方法,涵盖了该领域的研究热点。

 

 

2. 研究方法

3. 3D数据

3.1 3D 数据表示

3D 数据有多种表示形式,例如点云、网格和体素。

 

 

3.2 点云的应用

a. 自动驾驶

b.医学领域

c. 三维重建

 

3.3 点云数据存储格式

有数百种3D文件格式可用于点云,不同的扫描仪可以生成多种格式的原始数据。点云数据文件之间的最大区别是使用ASCII和二进制。二进制系统直接以二进制代码存储数据。

常见的点云二进制格式包括 FLS、PCD、LAS 等。

其他几种常见的文件类型可以同时支持 ASCII 和二进制格式。这些包括PLY,FBX。

E57 以二进制和 ASCII 格式存储数据,将两者的许多优点结合在一个文件类型中。

3.4 3D点云公共数据集

如今,有许多由行业和大学提供的点云数据集。不同方法在这些数据集上的性能反映了方法的可靠性和准确性。这些数据集由虚拟或真实场景组成,可以为训练网络提供真实标签。本节将介绍一些常用的点云分类数据集。

ModelNet40 [26]:该数据集由普林斯顿大学视觉与机器人实验室开发。ModelNet40 数据集由合成 CAD 对象组成。作为使用最广泛的点云分析基准,ModelNet40 因其多样化的类别、清晰的形状和结构良好的数据集而广受欢迎。数据集由 40 个类别的对象组成(例如飞机、汽车、植物、灯),其中 9843 个用于训练,2468 个用于测试。相应的点从网格表面均匀采样,然后通过移动到原点并缩放到单位球体来进一步预处理。下载链接: Princeton ModelNet

ModelNet-C [27]:ModelNet-C 集包含 185,000 个不同的点云,基于 ModelNet40 验证集创建。该数据集主要用于对3D点云识别的损伤鲁棒性进行基准测试,每种损伤类型有15种损伤类型和5个严重性级别,如噪声、密度等。帮助了解模型的稳健性。下载链接: https://sites.google.com/umich.edu/modelnet40c

ModelNet10 [26]: ModelNet10:ModelNet10是ModelNet40的子集,数据集仅包含10个类,分为3991个训练形状和908个测试形状。下载链接: Princeton ModelNet

悉尼城市对象 [28]:该数据集收集在悉尼中央商务区,包含各种常见的城市道路对象,包括车辆、行人、标志和树木类别中的 631 个扫描对象。下载链接: Sydney Urban Objects Dataset - ACFR - The University of Sydney

ShapeNet [29]:ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田理工学院的研究人员开发的 3D CAD 模型的大型存储库。该存储库包含超过 300 亿个模型,其中 220,000 个模型被分类为 3,135 个类,使用 WordNet 超名-次级关系排列。ShapeNetCore 是 ShapeNet 的一个子集,包括近 51,300 个独特的 3D 模型。它提供了 55 个常见的对象类别和注释。ShapeNetSem也是ShapeNet的一个子集,其中包含12,000个模型。它的规模较小,但覆盖范围更广,包括270个类别。下载链接: ShapeNet

ScanNet [30]:ScanNet 是一个包含 2D 和 3D 数据的实例级室内 RGB-D 数据集。它是标记体素的集合,而不是点或对象。截至目前,最新版本的ScanNet v2已经收集了1513个带注释的扫描,表面覆盖率约为90%。在语义分割任务中,此数据集标有 20 类带注释的 3D 体素化对象。下载链接: ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes

ScanObjectNN [31]:ScanObjectNN 是一个真实世界的数据集,由 2902 个 3D 对象组成,分为 15 个类别,由于数据集中的背景、缺失部分和变形,这是一个具有挑战性的点云分类数据集。下载链接:ScanObjectNN

4  基于深度学习的点云分类方法

基于深度学习的点云分类模型具有泛化能力强、分类精度高等优点,在点云分析中得到了广泛的应用。本节对基于深度学习的点云分类方法进行了详细划分,并补充了最近的一些研究工作。分类方法发展的时间表↓不同的颜色线代表不同类型的点云分类

 

4.1 基于多视图的方法

多视图学习是一种机器学习框架,其中数据由多个不同的特征组表示,每个特征组称为特定视图。基于多视图的方法是一种基于二维图像的深度学习。该方法分为三个步骤:首先,将2D图像投影到多个视图中。其次,提取视图函数。第三,融合这些功能以准确分类 3D 形状。

----2015年,Su等人[32]首次提出了多视图卷积神经网络(MVCNN)。由于 2D 视图的集合可以为 3D 形状识别提供大量信息,因此该方法从 3D 图像上的渲染视图集合中识别 2D 形状。该方法在投影检索过程中需要大量的计算,通过最大池化将多个视图特征转换为全局特征时,忽略了其他非极大值元素信息,因此不可避免地会导致信息丢失。

-----因此,鉴于MVCNN的计算量和效率较高,Bai等人[33]提出了一种实时3D形状搜索引擎,即GIFT(GPU加速和倒置文件),该方法在投影和视图特征提取阶段使用GPU加速,大大缩短了检索任务所花费的时间,并且具有高效率和处理大规模数据的能力。

----等等

总结: 与传统的人工提取特征分类相比,基于多视图的方法在点云分类方面效果更好,但仍然难以充分利用信息。大尺度场景的应用,以及三维数据固有的几何关系,是我们需要面对的挑战。

4.2. 基于体素的方法

这种方法将 3D 点云模型转换为近似对象形状的体素形式,每个体素块包含一组关联点,然后使用 3D CNN 对体素进行分类。

----Maturana等人[38]提出了一种名为VoxNet的卷积神经网络架构,用于表示具有体积占用网格的3D信息。VoxNet是最早的基于体素的3DCNN模型。该方法对每个网格进行归一化,然后通过卷积和最大池化单个体素块构建特征图。该架构使用2.5D表示本地描述扫描的特征,并采用全体积表示,提高了表达环境信息的能力,并实现了强大的3D物体识别。

 

----Wu等人[26]提出了3D ShapeNets来识别3D对象。该模型将 3D 形状表示为 3D 体素网格上二进制变量的概率分布,每个体素都可以由二元张量表示,并在存在不确定的初始识别的情况下预测下一个最佳视图。

-----为了减少内存消耗,提高计算效率,一些学者使用八叉树结构代替固定分辨率的体素结构。Riegler等人[40]提出了OctNet,它利用3D数据的稀疏性,用一组不平衡的八叉树对空间进行分层分区,其中每个叶节点存储一个池化的特征表示。此方法可在不影响其分辨率的情况下实现更深层次的网络。王等. [41]提出了一种基于八叉树的卷积神经网络,称为O-CNN,它使用八叉树来表示3D数据信息并离散其表面。3D CNN操作仅在3D形状表面占用的八进制上执行,提高了计算效率和功耗。

----继在3D数据表示中使用八叉树结构之后,Kd树结构也用于点云分类模型。Klokov等人[42]提出的Kd网络采用了,与体素和网格相比,Kd树索引和构建3D数据的能力得到了提高,因此Kd网络在训练和测试期间具有更小的内存占用和更有效的计算。Zeng等人提出的3D上下文网络。 [43] 利用 Kd-tree 强加的局部和全局上下文线索的方法进行语义分割。

----八叉树结构和Kd树结构在一定程度上减少了内存消耗,提高了计算效率,但由于体素边界值的影响,这两种结构不能充分利用局部数据特征,精度受到影响。王等. [44]提出了一个多尺度卷积网络(MSNet)。该方法首先将空间划分为不同尺度的体素,然后同时在多个尺度上应用MSNet来学习局部特征,最后使用CRF。对MSNet的预测结果进行全局优化,以实现更准确的点云分类任务

总结:与多视图方法相比,体素方法注重三维数据之间的关系,并将具有内部连接的点云分组为一组点,从而建立体素。虽然基于体素的模型解决了点云无序和非结构化问题,但点云数据信息的稀疏性和不完整导致分类任务效率低下,因此无法充分利用点云中的信息。

4.3 基于点云的方法

目前许多研究方法更多地侧重于使用深度学习技术直接处理点云。特征聚合算子是处理点云的核心,实现离散点的信息传递。特征聚合算子主要分为两类:局部特征聚合和全局特征聚合。本节从特征聚合的角度,对这两类方法进行了划分和更详细的介绍。

----2017年,Qi等人[18]提出的PointNet,是对基于点云的方法的开创性研究,这是一种全局特征聚合方法。该方法直接以点云为输入,通过T-Net模块进行变换,然后通过共享全连接来学习每个点,最后通过最大池化函数将点的特征聚合为全局特征。虽然PointNet是基于深度学习的先驱,但它仍然存在缺陷。例如,PointNet只捕获单个点和全局点的特征信息,而不考虑相邻点的关系表示,这使得PointNet无法有效地进行细粒度分类。

4.3.1 局部特征聚合
a. 逐点法。

----Qi et al. [46] 相继提出了基于 PointNet 的 PointNet++。它需要解决两个问题:划分生成的点集和通过局部特征学习器聚合局部特征。它以分层方式处理点云,每层由采样层、分组层和 PointNet 层组成。其中,采样层获取局部邻域的质心,分组层构造局部邻域的子集,PointNet层获取局部邻域中点之间的关系。但 PointNet++ 仍然忽略了点之间的先验关系

----基于PointNet++,钱等人[47]改进了训练和训练策略,提高了PointNet++的性能,并在PointNet++框架中引入了可分离的MLP和倒置残差瓶颈设计,将其框架命名为PointNeXt

 

----Hu et al. [49] 提出了一种高效轻量级的神经架构——RandLA-Net,它采用随机点采样,通过高效的局部特征聚合模块增加每个点的感受野,从而更好地捕获复杂的局部结构,从而减少内存占用和计算成本,但这种方法可能会丢弃稀疏点的一些关键特征

----Li等人[50]提出的自组织网络(SO-Net)构造自组织图(SOM),分层提取每个点和SOM节点的特征,并使用单个特征向量表示点云,通过将3层感知附加到编码的全局特征向量多层感知器(MLP)中,对点云进行分类。SO-Net具有良好的并行性和简单的结构,但在处理大规模点云数据方面存在局限性

----为了充分捕捉最关键的几何信息,徐等. [51]提出了几何解缠注意力网络GDANet,并引入了几何-解缠模块,将原始点云分解为轮廓和平面两部分,从而捕获和细化3D语义以补充局部信息。该方法具有良好的鲁棒性。

----Chen等人提出的PointSCNet[53]用于捕获点云的几何信息和局部区域信息。它由三个模块组成:空间填充曲线引导采样模块、信息融合模块和通道空间注意力模块。在PointSCNet中,原始点云被馈送到采样和分组模块,该模块使用Z阶曲线进行采样,以获得点与局部区域之间的高相关性。提取采样点云特征后,设计特征融合模块来学习其结构和相关信息。最后,通过通道空间模块增强关键点功能。

b. 基于卷积的方法。

卷积神经网络(CNN)在深度学习中扮演着重要的角色,是最基本的深度学习模型。其在2D图像处理领域的优异表现促使研究人员将其应用于3D点云并设计点卷积以进行点云分类。

----Atzmon等人[57]提出了点卷积神经网络(PCNN),它将卷积神经网络(CNN)应用于点云。首先,将点云上的函数扩展到空间中的连续体积函数;然后将连续体积卷积应用于函数;最终结果是受约束的点云。

----Liu等人[58]提出了关系形状卷积网络(RS-CNN),将常规CNN扩展到不规则点云以分析点云。Yousefhussien et al. [59]提出了一个一维全卷积网络。Wang等人[60]提出了一种具有空间池化(DNNSP)的深度神经网络来对大规模点云进行分类。该方法可以学习从整个区域到点聚类中心点的特征,以实现点特征的鲁棒表示。Komarichev等人[61]提出了一种基于点云的环形卷积神经网络(A-CNN)模型。Ran等人[62]提出了基于群关系聚合模块的RPNet,该模块对刚性变换和噪声具有鲁棒性。由Xie等人提出的ShapeContextNet(SCN)。 [63]通过使用形状上下文作为构建块来表示,以便它可以捕获和传播对象部分信息。SCN 是一个端到端模型。

----由于直接卷积具有点相关特征的核会导致丢弃形状信息和点排序中的方差,Li等人[64]提出了PointCNN来解决这个问题,这证实了点云分类网络局部结构的发展的重要性。

----由于点云的稀疏性、不规则性和无序性,很难直接对其进行卷积操作。吴等. [65]建议将动态滤波器应用于称为PointConv的卷积操作,该操作简单且降低了计算机存储压力。蒙特卡罗卷积神经网络(MCCNN)[66]将卷积核本身表示为多层感知器,并将卷积描述为蒙特卡罗积分。SpiderCNN [67]继承了CNN的多尺度分层结构,由SpiderConv单元组成,通过参数化一系列卷积滤波器,将卷积操作从规则网格扩展到可以嵌入n维空间的不规则点集,以有效地从点云中提取几何特征。毛泽东等. [68] 设计了基于组合InterConv(插值卷积运算)的插值卷积神经网络(InterpCNNs)。

----Esteves等人[69]使用多值球函数对3D数据进行建模,并提出了一个球形卷积网络,该网络通过在球谐域中的体上实现精确卷积来实现它们,从而解决了卷积神经网络中的3D旋转方差问题。SPHNet [70] 基于 Point CNN,通过在网络的不同层中使用球谐波来实现旋转不变性。

----由于点云的局部特征难以有效聚合和转移,Wang等人[71]提出了一种空间覆盖卷积神经网络(SC-CNN),其核心是空间覆盖卷积(SC-Conv)。在点云中构建各向异性空间几何以实现深度可分离卷积,用空间覆盖算子(SCOP)代替深度卷积。

c. 基于图的方法。

图神经网络(GNN)最早是由Scarselli等人提出的[72]。Bruna等人[73]是第一个将卷积应用于低维图结构以有效表示深度的人。Kipf等人[74]进一步提出,图卷积网络(GCN)在半监督分类任务中运行良好,事实上,GCN是CNN的优化。

----Simonovsky[75]提出了一个ECC(边缘条件卷积)网络,可以结合边缘标签的应用应用于任何图结构。该方法使用点作为图的顶点,点之间的距离作为权重,并使用聚合顶点信息的最大采样进行加权平均卷积运算。可用于大规模点云分割,但计算量大。

----SpecGCN [76] 用递归聚类和池化策略取代了标准的最大池化步骤。Grid-GCN [77]使用覆盖感知网络查询(CAGQ),通过利用网格空间的效率来提高空间覆盖率并降低理论时间复杂度。

----Mohammadi 等人 [78] 提出了具有多级图卷积网络 (GCN) 的 PointView-GCN,以分层聚合单视点云的形状特征,这有助于对对象几何线索和多视图关系进行编码,从而产生更具体的全局特征。

----Wang等人[79]提出了用于点云学习的动态图CNN(DGCNN),并提出了边缘卷积(EdgeConv)网络模块,可以更好地捕获点云的局部几何特征并保持排列不变性,证明了局部几何特征对3D识别任务的重要性。Zhang等[80]进一步优化了DGCNN,提出了链接动态图卷积神经网络(LDGCNN),去除了DGCNN中的变换网络以简化网络模型,并通过连接不同动态图的层次特征来优化网络,可以更好地解决梯度消失问题。

----Lu等人[81]提出的PointNGCNN 描述了邻域图中邻域中点之间的关系,并使用邻域图滤波器提取邻域特征信息和特征空间和笛卡尔空间中的空间分布信息。

d. 基于注意力的方法。

注意力机制的基本思想是将人类感知应用到机器上,但人类感知选择性地专注于场景的一部分,而不是一次处理整个场景,因此研究人员专注于注意力机制进行研究并应用于点云分类领域。

----Yang等人[82]开发了一种基于点云推理的点注意力转换器(PAT)。提出使用高效的GSA(群随机注意力)代替昂贵的MHA(多头注意力)来建模点之间的关系,并提出一种称为Gumbel子集抽样(GSS)的方法来选择代表性点的子集,从而降低了计算成本。

----Li等人[83]通过结合注意力机制和空间金字塔,提出了特征金字塔注意力模块(FPA)和全局注意力上采样模块(GAU)。Chen等人[84]设计了一个局部空间感知(LSA)层,并提出了一种基于LSA层的LSANet网络架构。LSA可以学习局部区域的空间关系层,生成空间分布权重,从而可以进行空间无关的操作。该方法的空间信息提取功能强大。

----Wang等人[85]提出了基于图注意力卷积(GAC)的GACNet。Chen等人[86]提出的GAPointNet将自注意力机制与图卷积相结合,通过在堆叠的MLP层中嵌入图注意力机制来学习局部信息表示,并使用并行机制聚合不同GAPLayer层的注意力特征,其中GAPLayer层和注意力层可以嵌入到现有的训练模型中,以更好地从无序点云中提取局部上下文特征。

4.3.2. 全局特征聚合
a. 基于变压器的方法。

自2017年首次提出变压器[87]以来,它在计算机视觉领域取得了举世闻名的成果。许多研究人员也在点云处理中使用这种结构

----Engel等人[88]提出了一个直接在无序和非结构化点集上运行的深度神经网络点转换器,并提出了一个基于学习分数的焦点模块ScorNet,作为点转换器的一部分。以点云作为点变换器的输入,从中提取局部和全局特征,然后利用SortNet对局部特征进行排序,最后利用局部全局注意力对局部全局特征进行关联,如图10所示。

----Berg等人[89]发现,自注意力算子随着输入点集的增长而快速且低效地增长,注意力机制难以找到全局中每个点之间的关系,因此他们提出了一种两阶段方法——点TnT,这种方法使单个点和一个点集有效地相互注意。

----Wu等人[90]提出的Visual Transformer(VT)将Transformer应用于特征图中基于标签的图像,可以更有效地学习和关联稀疏分布的高级概念。Carion等人[91]提出了一种将目标检测视为直接集成预测问题的方法,称为检测转换器(DETR),这是一种端到端检测转换器,它将CNN特征作为输入并使用变压器编码器 - 解码器来生成边界。

----Guo et al. [92]提出了一种基于变压器的点云学习框架——点云变换器(PCT),并提出了隐式拉普拉斯算子和归一化细化的偏移注意力,该框架具有排列不变性,更适合点云学习

----受BERT(来自变压器的双向编码器表示)的启发,Yu等人[93]提出了一种学习变压器的新方法,称为Point-BERT。该方法首先将点云划分为几个局部块,通过点云标记生成局部信息的离散点标签,然后通过随机屏蔽一些输入点云并将它们馈送到骨干变压器中,该方法可以将BERT的概念推广到点云中。

----Pang等人[94]提出了Point-MAE,这是一种用于点云自监督学习的掩蔽自编码器方法,以解决点云位置信息泄露和信息密度不均匀等问题。

----他等人[95]引入了基于体素的设置注意力模块(VSA)来建立体素集合转换器(VoxSeT)架构。VoxSeT可以通过VSA模块管理点聚类,并以线性复杂性并行处理它们。该方法结合了Transformer的高性能和基于体素的模型的高效率,在点云建模中具有良好的性能。

b.基于全局模块的方法。

----Wang等人[96]提出了一个全局模块,该模块将位置处的响应计算为所有位置特征的加权和,为聚合全局特征提供了解决方案,但全局点对点映射可能仍不足以提取点云形状所隐含的潜在模式。

----Yan等人[97]提出了一种端到端网络PointASNL,它结合了自适应采样模块(AS)和局部非本地模块(L-NL),可以有效地处理噪声点云。AS模块通过推理更新点的特征,然后对权重参数进行归一化,并对初始采样点进行重新加权,可有效缓解偏置效应。L-NL模块由局部和非局部点单元组成,降低了学习过程对噪声的敏感性。

-----Li等人[98]采用了一些CNN方法来支持深度GCN架构,称为DeepGCN,它由三个模块组成:用于输入点云特征转换的GCN骨干块,用于生成和融合全局特征的融合块,用于预测标签的MLP块预测块。为了解决GCN训练过程中梯度消失的问题,可以训练更深层次的GCN网络。

----Xiang等[99]提出了一种基于点云中假设曲线聚合的方法CurveNet,并有效地实现了包括曲线分组算子和曲线聚合算子在内的聚合策略。网络由一堆构建块组成,FPS 代表最远点采样方法。

c. 基于 RNN 或 LSTM 的方法。

递归神经网络(RNN)通常可以有效地利用上下文信息来处理序列数据。长短时记忆(LSTM)是一种特殊的RNN,可以有效解决长序列数据训练过程中梯度消失和梯度爆炸的问题。

----Engelmann等人[100]基于PointNet扩展了输入级上下文信息和输出级上下文信息,使PointNet能够应用于大规模场景。它可以使PointNet应用于大规模场景。

----Liu等人[101]提出了一种3DCNN-DQN-RNN方法,该方法融合了3D卷积神经网络(CNN),Deep Q网络(DQN)和残差RNN。首先,通过3DCNN获得点的特征表示。其次,DQN可以检测和定位物体,可以自动感知场景并调整3DCNN的反馈。最后,利用RNN识别多尺度特征的联系和差异。其中LSTM单元用于防止梯度消失并使网络具有长期记忆,该方法提高了处理大规模点云的精度。

----Huang等人[102]提出的RSNet网络以原始点云为输入,然后进行特征提取,然后从x、y、z三个方向穿过切片池层。每层使用双向RNN提取局部特征,然后使用切片解析。该层将点云序列的特征分配给每个点,最后输出每个点的预测语义标签

----Ye等人[103]提出了一种端到端语义分割方法3P-RNN,该方法结合了CNN和RNN,该方法由点金字塔模块和双向分层RNN模块组成。在区分相同语义的工作中,这种方法有一定的局限性。

----Liu等人提出的Point2Sequence[104]使用RNN捕获细粒度的上下文信息来学习3D形状特征,它引入了一种注意力机制来增强特征提取。

4.4. 基于多态融合的方法

----将PointGrid与Le等人提出的网格相结合的策略[105]是混合点和网格进行表示。PointGrid由几个卷积块组成,它们通过最大池化来表示不同层的特征。每个积层包括一个卷积核,过拟合现象由池化层控制,然后通过全连接完成。为了推理,PointGrid 有两个完全连接的层,最后使用 softmax 分类器执行回归,可以更好地识别细粒度模型并表示局部形状。

----Zhang等[106]提出了一种新的点云学习方法PVT(点体素变换器),该方法结合了稀疏窗口注意力模块(SWA)和相对注意力模块(RA),该方法结合了基于体素和基于点的模型思想,该方法在点云分类的准确性方面表现出色。

----Zhang等人提出的PointCLIP[107]基于预先训练的CLIP学习点云。通过将点云投影到多视图深度图而不渲染来对点云进行编码,通过将 2D 预训练知识传输到 3D 域来实现零镜头识别。视图间适配器旨在更好地提取全局特征。网络架构如图 11 所示。

----CrossPoint [108] 通过在不变空间中最大化点云和相应的渲染 2D 图像并在变换中保持点云不变来实现 3D 到 −2D 的对应关系。

总结:与基于多视图的方法和基于体素的方法相比,基于点云的方法直接处理原始点,可以充分利用点云信息因此,基于点云的方法也是未来的研究方向,未来基于变压器的方法将得到更广泛的应用。

5. 评估

评价指标用于评价点云分类方法的性能。精度、空间复杂度、执行时间等。是方法的评价指标,准确率是评价各种方法的关键指标。通常,准确度 (Acc)、召回率 (Rec) 和交集 (IoU) 用于评估方法的准确性。我们在表 中列出了调查结果。

•准确度是指正确预测的样本数与预测样本总数的比率。

•召回率是指预测为阳性类的样本与真阳性类总数的比率。

•交集并集是指预测值与真实值的交集和并集之比。

6. 讨论

        从表的结果可以看出,大多数方法的OA在ModelNet90上可以达到40%以上,而一些前沿方法如RepSurf、PointMLP、RP-Net可以达到94%。PiontView-GCN的OA为95.4%,符合SOTA的结果。PointNeXt,PointMLP,PointCNN和其他公司在大规模和复杂的场景ScanObjectNN中也表现良好,但还需要进一步的突破。尽管基于深度学习的研究已经取得了重大成就,但现有的方法仍然存在一些局限性。我们需要分析其局限性,准确把握三维领域的未来发展,填补当前研究空白。本节将讨论目前基于深度学习的点云分类方法的不足,总结研究结论,并对未来的研究方向进行展望,具体如下:

        从各种方法的实验结果可以看出,一些分类方法在ModelNet数据集中具有突出的性能,但在更复杂的ScanObjectNN中,其结果并不突出。这是由于复杂场景点云特征的提取和利用困难造成的限制。分类网络在特征采样、聚合和提取过程中丢失了原始点云信息[51] 通过将点云特征分为锐化和平滑来区分不同区域的点云对整体分类结果的影响。因此,合理利用点云的局部或非局部有效特征是解决这一问题的关键。这也是基于原始点云方法的未来研究趋势。

•从数据角度来看,随着3D扫描技术的发展,大规模点云的获取不再是挑战。但是,点云数据的质量会显著影响分类网络的鲁棒性。挑战在于处理和校正原始点云数据。此外,通过光学雷达扫描获得的三维数据往往具有不同程度的噪声,但目前的算法对点云噪声的研究很少。未来,我们应该探索噪声对点云分类的影响。

•在应用层面,目前大多数方法都集中在分析相对简单的室内场景。然而,在实际应用中,往往是信息量较大、结构复杂的户外场景,导致分类算法自动驾驶、森林监控等应用中存在局限性。突破这一限制的关键是提高分类算法的效率,减少计算参数的数量。

•基于源云的方法在算法性能上具有一定的优势,但网络模型较为复杂。由于输入原始点云数据的完整性,简单的基于点的方法仍然是未来的研究趋势。

7. 查找

点云的直接处理已成为近年来的热门话题和点云处理的趋势,因为它可以最大限度地利用点的多维信息以避免信息丢失。

随着各个领域对点云分类方法的需求不断增加,研究人员不断提出提高准确性和效率的新方法,推动了深度学习和3D应用的发展。基于点的网络模型是点云任务中研究内容最频繁的内容,但点云的局部特征通常通过查询索引来保证其邻域信息,这必然会导致一些关键信息的丢失和计算效率的下降。有效解决这个问题极具挑战性。

目前的一些点云分类方法侧重于提高准确性,而另一些则侧重于提高效率。我们需要解决“如何在高效的同时实现高精度”的问题。在以后我们提出的网络模型中,我们应该注意网络架构的优化,在面对复杂不规则的点云的同时,可以降低计算复杂度和内存使用量。

8. 结论

本文对近年来基于深度学习的点云分类方法进行了全面的综述和探讨。

首先,我们在介绍中介绍了点云及其应用,并讨论了点云的特点和处理难点。其次,在第二部分中介绍三维数据,总结了常用的三维数据表示形式、点云数据存储格式和点云分类数据集。在前面部分的基础上,我们全面回顾了基于深度学习的点云分类方法,将这些方法分为四大类:基于多视图的方法、基于体素的方法、基于点云的方法和基于多态融合的方法。然后我们比较现有方法的性能。最后,指出了当前方法存在的问题,并对未来的研究方向进行了展望。

虽然我们已经对点云分类进行了系统的研究,但在未来的研究中,研究人员仍然需要解决一些局限性。点云分类方法适用于许多真实场景,例如室内,公路,铁路和花园。在这些场景中,我们无法具体判断很多点云分类方法的优势。因此,研究人员有必要根据实际情况选择适合所需场景的分类算法,这也是讨论中提到的数据集短缺问题。此外,研究人员需要进一步探索和补充多态融合分类算法。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值