周报20240531

最新推荐文章于 2024-10-02 23:40:03 发布

梧桐叶的秘密

最新推荐文章于 2024-10-02 23:40:03 发布

阅读量970

点赞数 19

文章标签：算法人工智能软件工程

本文链接：https://blog.csdn.net/qq_45268614/article/details/139333886

版权

学习目标：

跑完sqn训练之后，然后也跑了test，总结实验数据。
pointmatch这篇论文网络结构的汇总。
PointMamba论文网络

学习内容：

1.sqn 在这里插入图片描述训练的时候花了比较长的时间，测试的时间比较快，所以多跑了几组数据。总体来看，精度方面差了3 4个点，细分到各个类别来看，在column，door，chair，sofa等这几个类别相比于论文中差距较大，在boam这个类中始终是0。可能是处在类与类的边界上，分割时没有分割得那么精细，目前在思考能不能改进，如果找不到的话，后续可能会拿这些指标去做对比实验。

2.PointMatch: A Consistency Training Framework for Weakly Supervised Semantic Segmentation of 3D Point Clouds

论文提出了一个名为PointMatch的新框架，用于3D点云数据的弱监督语义分割。
传统的语义分割依赖于密集的注释，成本高昂且耗时。PointMatch通过一致性正则化，利用数据本身和弱标签进行训练，以提高学习效率并减少对标签的依赖。
PointMatch在ScanNet-v2和S3DIS数据集上表现出色，尤其在标签非常稀疏的情况下，相较于现有技术有显著的性能提升。

在这里插入图片描述整个流程的核心在于通过一致性训练和自适应伪标签机制，使得网络能够在只有少量标注数据的情况下学习到鲁棒的特征表示，从而实现高质量的3D点云语义分割。

输入点云：首先，整个场景的3D点云数据被输入到网络中。

创建视图（Views）：输入点云通过不同的数据增强技术（如偏移、缩放、旋转等）生成两个不同视图的点云，记为PAPA和PBPB。

3D U-Net：这两个视图分别输入到一个3D U-Net网络中（SparseConv作为骨干网络）。3D U-Net负责对每个视图的点进行语义预测，输出每个点对应所有类别的概率分布，记为QAQA和QBQB。

生成伪标签（Pseudo-Labeling）：
    使用QAQA作为QBQB的伪标签，通过选择每个点预测中概率最高的类别。
    通过置信度阈值（例如0.95）过滤，以提高伪标签的质量。

一致性训练（Consistency Training）：
    强制模型在两个视图的预测之间保持一致性，即使用一个视图的预测作为另一个视图的伪标签，并通过交叉熵损失函数来实现这一点。

超点信息（Super-Point Information）：
    利用超点（super-points）信息，通过聚类相似的点来改善伪标签的质量。
    在每个超点内部进行投票，选择“主流”类别，并将其传播到整个超点中，形成超点级别的伪标签。

自适应伪标签机制（Adaptive Pseudo-Labeling）：
    根据模型的可靠性，设计一个自适应权重来平衡点级伪标签和超点级伪标签的使用。
    在训练的早期阶段，模型更依赖于超点级伪标签；随着模型可靠性的提高，逐渐转向依赖点级伪标签。

损失函数优化：
    通过最小化总损失函数（原始标签的交叉熵损失加上伪标签的交叉熵损失，通过一个权重λ来平衡）来优化网络参数。

训练与推断：
    在训练阶段，网络通过上述流程不断学习并更新参数。
    在推断阶段，使用训练好的网络对新的点云数据进行语义分割预测。

3.PointMamba: A Simple State Space Model for Point Cloud Analysis

在这里插入图片描述

（1）空间填充曲线（Space-filling curves）：PointMamba使用空间填充曲线，如Hilbert曲线和Trans-Hilbert曲线，对点云中的关键点进行扫描和序列化，以保持空间邻近性。
（2）Farthest Point Sampling (FPS)：首先使用FPS选择关键点，这些点是点云的代表性样本。
（3）点标记器（Point Tokenizer）：利用KNN（K-最近邻）算法选择每个关键点的k个最近邻点，形成点补丁，并使用PointNet（点嵌入层）将局部补丁映射到特征空间，生成序列化的点标记。
（4）顺序指示器（Order Indicator）：为了区分由不同空间填充曲线生成的序列化点标记，引入了顺序指示器，它执行线性变换以将特征转换到不同的潜在空间。
（5）Mamba编码器（Mamba Encoder）：网络的核心是由多个Mamba块组成的编码器。每个Mamba块包括层归一化（LN）、选择性状态空间模型（Selective SSM）、深度卷积（DWConv）和残差连接。
（6）自监督预训练（Self-supervised Pre-training）：PointMamba支持自监督预训练，通过随机选择空间填充曲线进行序列化，并随机遮蔽一定比例的点标记，然后使用Mamba自编码器进行特征提取和重建。
（7）非分层结构（Non-hierarchical Structure）：PointMamba的编码器结构简单，没有采用复杂的层次化设计，而是由多个Mamba块堆叠而成。
（8）全局建模（Global Modeling）：PointMamba能够通过一种序列到序列的转换来实现全局建模，其中每个序列元素都可以与序列中的其他元素交互。
（9）线性复杂度（Linear Complexity）：与Transformer中的二次复杂度注意力机制不同，PointMamba的设计使其在处理点云数据时具有线性时间复杂度。
（10）灵活性（Flexibility）：PointMamba在预训练范式中表现出灵活性，可以定制掩码建模策略，以提供良好的先验知识。