周报——20240322

学习目标:

  • 精读PointCT: Point Central Transformer Network for Weakly-supervised Point Cloud Semantic Segmentation这篇论文。
  • 准备汇报工作,理解代码,下周尝试运行代码看实验结果。

学习内容:

一、论文摘要总结及主要贡献。

  • 点云分割对于3D场景理解至关重要,但在大规模场景中进行标注既昂贵又耗时。

  • 为了解决这个问题,论文提出了PointCT,这是一个端到端可训练的变换器网络,专门针对弱监督点云语义分割。

  • PointCT通过网络中心的注意力机制来处理有限的点标注挑战,通过两个嵌入过程整合全局特征,增强未标记点的表示。

  • 该网络在不需要额外监督的情况下,在多个公共数据集上取得了卓越的性能,超越了其他最先进的方法。

主要贡献:

新颖的网络架构:提出了一个端到端可训练的变换器网络,该网络使用中心基础的注意力机制来克服点云分割中的稀疏标注问题。
位置编码模块:在弱监督的点云分割中引入了位置编码模块,专注于提取点的不同几何特征,以提高模型的空间推理能力。
实验验证:在S3DIS、ScanNet-V2和STPLS3D等基准数据集上的实验结果证明了PointCT方法的卓越性能,特别是在室内和真实世界点云上,与现有的最先进方法相比,无论是在室内还是真实世界点云上。

个人理解:对于点云的弱监督语义分割的难点,就是利用有限的标注数据如何进行高效的语义分割。全监督需要大量标注,耗时耗力,但达到的效果往往是很好的;弱监督的目标就是利用有限标签尽可能的去达到全监督所展现出来的效果。该论文中就提出了一个PointCT的网络结构,利用由有限标注,以及充分增强未标注的点,达到一个全局效果的展示。并且在多个公开数据集上取得了很不错的效果。下面将详细介绍该网络结构,希望对大家能有所帮助。

二、PointCT网络架构
在这里插入图片描述这里是整体架构图,下面我将逐块进行分析。
(a)Architecture
在这里插入图片描述
这是从整体的角度出发,我们能够注意到,该结构总共有五部分组成,第一部分和最后一部分就是输入和输出,输入的是原始点云及其特征。输出的则是对该点云的语义分类。中间三个模块分别是下采样和转换器和上采样。

这里我想讲讲让我思考了比较久的点就是架构中的 2和5是什么意思?特别是transformer的输出会指向Upsampling。整体流程应该是输入点云后,经过下采样,得到部分重要的点及其特征。然后将其作为输入到Transformer中,这里的2是指两个Transformer堆叠,也就是连续进行两次Transformer,后面的*5也是这个道理。这样的设计有助于在网络的不同层次上捕获不同尺度的特征。更深的变换器块可以捕获更复杂的特征,有助于提高网络对点云数据的理解能力。因为前期我需要加深对原始点云的处理,包括下采样后不同的分辨率,尽可能的理解点云及其特征。
因为我们后面知道Upsampling需要两个输入,这里的输入其实就是Transformer的输出还有就是自己的输出。不断进行重复。最后在达到合适的分辨率之后对其进行分类。

(b)Downsampling
在这里插入图片描述下采样的目的是逐层降低选择点的数量。采用最远点采样,选择重要的点进行分组,然后通过MLP,最后进行最大池化保留重要特征。po是指原始点的数量,pd是指最远点采样选择的点数量。Fo和Fd则是对应点的特征。
(c)Transformer Block
在这里插入图片描述
转换器模块主要的作用就是将下采样后的点云及特征作为输入。通过一系列的变化,充分利用有限标注点的特征及结合全局视野来生成具有增强效果的特征。在每个变换器块中,中心基础的注意力层位于多层感知机(MLP)层之间,并通过dropout模块和残差连接进行优化。变换器块利用点特征和几何因素,为所有点生成更新后的特征作为输出。

(d)Upsampling
在这里插入图片描述
变换器块输出的特征与原始点云中相应的点和特征通过插值技术进行合并,以获得上采样特征。结果特征通过MLP层处理,以生成用于语义分割的输出特征。
下采样和上采用是成对出现的。下采样是指减少数据点数量的过程,通常用于降低数据的空间分辨率或减少计算量。上采样是下采样的逆过程,它通过增加数据点的数量来提高数据的空间分辨率。

(d)Central-based Attention
在这里插入图片描述这个模块是论文里面最核心的模块,也就是Transformer模块中的CA-基于中心点的注意力机制。
首先我们需要明白图中的各个数学符号所表示的含义:
g1(fi):这里是指将输入的特征经过一个线性层,计算中心点的权重。
knn:通过k近邻算法,获取中心点附近的k个点,这部分主要是后续需要利用局部领域特征,进而扩散到全局。利用转换后的中心点特征和邻域点特征,通过矩阵乘法操作,结合softmax函数,计算出邻域点的全局特征(记为e1)。
e2:e2通过将e1与原始的中心点特征(fi​)相结合来计算,这样可以确保中心点的特征在更新时考虑到了邻域的全局信息。
g2(e1):将e1的特征经过一个线性层,计算该全局特征的权重。
posij:通过k近邻算法后,邻点和中心点的各种指标,来进行位置编码,主要的作用就是这些几何特征被整合到注意力权重中,以增强局部特征并保留全局特征,从而在弱监督设置中提供更全面的空间信息。
g3(fij):将k近邻点特征经过一个线性层,计算邻点的特征权重。

结合位置编码(posij)和上述融合的特征,通过softmax函数计算注意力权重。
使用这些权重对邻域点的特征进行加权求和,得到更新后的中心点特征。

三、实验验证部分
在这里插入图片描述

在这里插入图片描述

1.实验在三个公共点云数据集上进行:S3DIS、ScanNet-V2和STPLS3D。这些数据集包含了室内和室外场景,提供了不同类别的点云数据以及相应的标注信息。
2. 数据预处理:对输入点云进行网格采样,以不同的网格大小进行处理,以适应不同分辨率的输入。
训练细节:使用PyTorch框架实现PointCT网络,并在训练过程中使用AdamW优化器和交叉熵损失函数。设置了学习率和权重衰减参数,并在特定epoch后进行学习率衰减。不同标注设置:在不同的标注点比例(如10%、1%、0.1%)下训练和评估网络,以模拟弱监督条件。
3.将PointCT网络的性能与其他现有的弱监督和全监督点云分割方法进行比较。在不同的数据集上评估PointCT的性能,并在多个标注点设置下展示其性能。
4.进行消融研究以分析网络中不同组件的影响,特别是中心基础的注意力机制和位置编码模块。通过移除或修改网络的某些部分,评估这些组件对最终性能的贡献。
5.根据实验结果得出结论,PointCT网络在弱监督点云语义分割任务上取得了卓越的性能。验证了中心基础的注意力机制和位置编码模块在提升分割精度方面的重要性。

四、实验结论

总之,点中心变压器证明了基于中心关注的变压器网络对弱监督点云分割的有效性。我们的方法在没有额外监督的情况下完全基于3D点实现了令人印象深刻的性能。

通过基于中心的关注,我们使用两个具有适当全局特征的嵌入过程有效地处理中心点和邻域之间复杂的关系。然后使用位置编码模块对几何特征进行改进。大量的实验验证了PointCT在弱监督点云中捕获全局上下文和减轻噪声的能力。


学习时间:

  • 2024年3月15日——3月22日

  • 30
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值